JP2019087058A - 文章中の省略を特定する人工知能装置 - Google Patents

文章中の省略を特定する人工知能装置 Download PDF

Info

Publication number
JP2019087058A
JP2019087058A JP2017215130A JP2017215130A JP2019087058A JP 2019087058 A JP2019087058 A JP 2019087058A JP 2017215130 A JP2017215130 A JP 2017215130A JP 2017215130 A JP2017215130 A JP 2017215130A JP 2019087058 A JP2019087058 A JP 2019087058A
Authority
JP
Japan
Prior art keywords
sentence
clause
noun
sentences
clauses
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2017215130A
Other languages
English (en)
Inventor
森 昌也
Masaya Mori
昌也 森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Personal Ai
Personal Ai Corp
Original Assignee
Personal Ai
Personal Ai Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Personal Ai, Personal Ai Corp filed Critical Personal Ai
Priority to JP2017215130A priority Critical patent/JP2019087058A/ja
Publication of JP2019087058A publication Critical patent/JP2019087058A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

【課題】自然言語処理型人工知能において、文章中に繰り返し記述がある場合に、前方または後方の文章、文または文節の記述の重複を省くために用いる言葉から省略した元の文章、文または文節を自動特定する【解決手段】本願の発明の概略を説明すれば、以下の通りである。すなわち本発明は、文章に対して自然言語処理を行い、その結果をもとに文節ごとに分け、文節同士の関係性、およびそれぞれの文節内の名詞および名詞に係る品詞、および動詞から作成した動名詞の組み合わせを得る。そのうえで前述、前記、後述、後記の記述等やこれらの後に続く単語等、または特定の文章全体を指定する単語等から、前方や後方にある同単語等に係る1文節または文節の組み合わせを抽出することで、重複による省略した文章、文、文節等を特定する【選択図】図1

Description

本発明は、作成された文章内容において文章中に繰り返し記述がある場合に、前方または後方の文章、文または文節の記述の重複を省くために用いる言葉から省略した元の文章、文または文節を自動特定する自然言語処理系の人工知能を実現するシステムおよび人工知能を実現するソフトウエアに適用して有効な技術に関する
従来の自然言語処理系の人工知能は、文章を品詞分解し、名詞比較を行い、蓄積データから類似する名詞を抽出し、その名詞を含む文章を抽出するものである。それゆえ文章、文節の省略や他の言葉での置き換えに対しては、置き換えた言葉自信を比較対象として文章を抽出してしまう為、文章、文、文節の省略や他の言葉での置き換えた後の文字を元に省略や置き換える前の文章や文、文節を抽出することは、従来困難であった。
MeCab: http://mecab.sourceforge.net/ CaboCha:http://chasen.org/~taku/software/cabocha/
自然言語処理型人工知能において、文章中に繰り返し記述がある場合に、前方または後方の文章、文または文節の記述の重複を省くために用いる言葉から省略した元の文章、文または文節を自動特定する。例えば、前記とある場合は、その前記の文章、文章または文節を認識し、元の文章または文節がどこを指すかを認識できるようにする。
本願の発明の概略を説明すれば、以下の通りである。すなわち本発明は、文章に対して自然言語処理を行い、その結果をもとに文節ごとに分け、文節同士の関係性、およびそれぞれの文節内の名詞および名詞に係る品詞、および動詞から作成した動名詞の組み合わせを得る。そのうえで前述、前記、後述、後記の記述等やこれらの後に続く単語等、または特定の文章全体を指定する単語等から、前方または後方にある同単語等に係る1文節または文節の組み合わせを抽出することで、重複による省略した文章、文、文節等を特定する。
本発明の実施の形態である前方または後方の文章、文または文節の記述の重複を省くために用いる言葉から省略した元の文章、文または文節を自動特定する人工知能の構成の一例 人工知能によるによる前方または後方の文章、文または文節の記述の重複を省くために用いる言葉から省略した元の文章、文または文節を自動特定するフロー図例
以下、本発明の実施の形態を図面に基づいて詳細に説明する。ただし、本発明は多くの異なる態様で実施することが可能であり、本実施の形態の記載内容に限定して解釈すべきではない。なお、実施の形態の全体を通して同じ要素には同じ番号を付するものとする。
以下の実施の形態では、主に方法またはシステムについて説明するが、当業者であれば明らかなとおり、本発明はコンピュータで使用可能なプログラムとしても実施できる。したがって、本発明は、ハードウェアとしての実施形態、ソフトウェアとしての実施形態またはソフトウェアとハードウェアとの組合せの実施形態をとることができる。プログラムは、ハードディスク、CD−ROM、光記憶装置または磁気記憶装置、半導体記憶装置等の任意のコンピュータ可読媒体に記録できる。
また以下の実施の形態では、一般的なコンピュータシステムを用いることができる。実施の形態で用いることができるコンピュータシステムは、中央演算処理装置(CPU)、グラフィックス プロセッシング ユニット(GPU)、主記憶装置(メインメモリ:RAM)、不揮発性記憶装置(ROM)、コプロセッサ、画像アクセラレータ、キャッシュメモリ、入出力制御装置(I/O)等、一般的にコンピュータシステムに備えられるハードウェア資源を備える。また、ハードディスク装置等の外部記憶装置、インターネット等のネットワークに接続可能な通信手段を備えることができる。コンピュータシステムには、パーソナルコンピュータ、ワークステーション、メインフレームコンピュータ等各種のコンピュータやタブレットコンピュータ、スマートフォン等各種携帯情報端末が含まれる。
本発明は、自然言語処理をコアとする人工知能において、文章中に繰り返し記述がある場合に、前方または後方の文章、文または文節の記述の重複を省くために用いる言葉から省略した元の文章、文または文節を自動特定することにある。
図1は、本発明の実施の形態である自然言語処理をコアとする人工知能構成の一例を示した概念図である。図1の入力部(001)、自然言語処理部(002)、文節処理部(003)、省略分析部(004)、出力部(005)を含む。
入力部は、文章(テキスト文)を自然言語処理部に受け渡す。ここでの文章とは、音声テキスト変換後の文章、キーボード等の入力装置からの文章を含む。自然言語処理部は、公知技術である、MeCab,CaboCha等に代表される形態素解析、係り受け解析を行い、文章を品詞分解した各語が、他のどの語にかかっているかという結果を得ることができる。この結果を用い、文節処理部では、分節抽出と、分節処理を行う。文節抽出処理では、自然言語処理結果をもとに文節に分ける。文節の分解(文節抽出)は、句読点での分割を基本とし、分割した句読点間(文の始まりから最初の句読点までの場合も含む)に動詞を含む場合は、次の句読点までを文節する。動詞を含まない場合は、次の句読点までに動詞を含むかどうかを確認し、動詞を含むまで繰り返し、その繰り返した句読点間(文の始まりから最初の句読点までの場合も含む)すべてを1つの文節とする。文節抽出処理の結果によって得たそれぞれの文節について文節処理を行う。分節処理では自然言語処理を行い、各文節内での係り受け解析結果から、文節内の語の関係性を得る。 句点の区切りを文と判断する。文章は、文の組み合わせとして扱い、文章の区切りは、章を区切る任意の言葉の前の文までを文章の区切りとして扱う、または章を区切る任意の言葉が存在しない場合は、文と文を結び付ける接続詞が存在する場合は、同一の文章として扱う、または自然言語処理における係り受け関係から文中のそれぞれの名詞とその名詞が係り受け帰結する(動)名詞が文章の最初の文の文中のそれぞれの名詞とその名詞が係り受けする(動)名詞との間で任意の割合で一致する文までを同一の文章として扱い、同時に文章として認識した文と文の間に存在する文の文中のそれぞれの名詞とその名詞が係り受けする(動)名詞が、文章の後に来る文の文中のそれぞれの名詞とその名詞が係り受けする(動)名詞との間に任意の割合で一致する文までを同一の文章として扱う。
省略分析部では、文章、文または文節内において特定の文を指し示す任意のキーワード、または前述、前記、後述、後記等のように繰り返す内容の文章、文、文節を省略して使用するキーワードを文節処理部の結果から抽出した場合、省略特定処理を行う。
文内に特定の文または文章を指し示す任意のキーワードを抽出した場合、つまりは省略形であるキーワードを含む文において、この省略であるキーワードがこの文よりも前の文を表す。これは第二の文中の記述において、第一の文という表現のように任意のキーワードによって前述の文を特定する。分節抽出処理により抽出した文において、省略キーワードを含む文より前の文であり、かつ現在の文の位置を最初の文からの相対番号を特定し、省略のキーワードの番号からその位置を特定する。同様に文章内に特定の文章を指し示す任意のキーワードを抽出した場合、つまりは省略形であるキーワードを含む文章において、この省略であるキーワードがこの文章よりも前の文章を表す場合である。これは第二の文章中の記述において、第一の文章という表現のように任意のキーワードによって前述の文章を特定する。省略キーワードを含む文章より前の文章であり、かつ現在の文章の位置を最初の文章からの相対番号を特定し、省略のキーワードの番号からその省略に対する文章として特定する。
前述、前記等のように繰り返す内容の文章、文、文節を省略して使用するキーワードの後に、「の」等と(動)名詞を伴う場合、この(動)名詞に係る文、文節でかつ前述、前記等を含む文、文節よりも前の文、文節のうちこの(動)名詞を含む文、文章により近い文、文節において、この(動)名詞を含む文、文章を抽出し、この(動)名詞に係る文、文節を前述、前記等の元として特定する。
後述、後記等のように繰り返す内容の文章、文、文節を省略して使用するキーワードの後に、「の」等と(動)名詞を伴う場合、この(動)名詞に係る文、文節でかつ後述、後記等を含む文、文節よりも後の文、文節のうち、この(動)名詞を含む文、文章により近い文、文節において、この(動)名詞を含む文、文章を抽出し、この(動)名詞に係る文、文節を後述、後記等の元として特定する。
前述、前記等のように繰り返す内容の文章、文、文節を省略して使用するキーワードの後に、「の」等と(動)名詞を含まない場合、前述、前記等に続く文節、文を文節処理部において係り受け分解した結果での文節中、文中のそれぞれの名詞とその名詞が係り受けする(動)名詞をキーワードに前述、前記等を含む文節、文よりも前かつ前述、前記等を含む文に近い文から抽出し、このキーワードを含む文を前述、前記等の元として特定する。
後述、後記等のように繰り返す内容の文章、文、文節を省略して使用するキーワードの後に、「の」等と(動)名詞を含まない場合、後述、後記等に続く文節、文を文節処理部において係り受け分解した結果での文節中、文中のそれぞれの名詞とその名詞が係り受けする(動)名詞をキーワードに前述、前記等を含む文節、文よりも後ろかつ後述、後記等を含む文に近い文から抽出し、このキーワードを含む文を後述、後記等の元として特定する。
特許などの文章中、「請求項1に加えて」や、「前述のXXX」など省略内容を自動認識し、本来の文意に戻して、自動解析する知財向け人工知能に利用

Claims (1)

  1. 文章中に繰り返し記述がある場合に、前方または後方の文章、文または文節の記述の重複を省くために用いる言葉から省略した元の文章、文または文節を自動特定する人工知能プログラム、または同プログラムを持つ装置、又は同プログラムを格納するメディア
JP2017215130A 2017-11-07 2017-11-07 文章中の省略を特定する人工知能装置 Pending JP2019087058A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017215130A JP2019087058A (ja) 2017-11-07 2017-11-07 文章中の省略を特定する人工知能装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017215130A JP2019087058A (ja) 2017-11-07 2017-11-07 文章中の省略を特定する人工知能装置

Publications (1)

Publication Number Publication Date
JP2019087058A true JP2019087058A (ja) 2019-06-06

Family

ID=66763114

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017215130A Pending JP2019087058A (ja) 2017-11-07 2017-11-07 文章中の省略を特定する人工知能装置

Country Status (1)

Country Link
JP (1) JP2019087058A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP4280036A1 (en) * 2022-05-19 2023-11-22 OMRON Corporation Character input device, character input method, and character input program

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007272534A (ja) * 2006-03-31 2007-10-18 Advanced Telecommunication Research Institute International 省略語補完装置、省略語補完方法、及びプログラム
JP2011257791A (ja) * 2010-06-04 2011-12-22 Nippon Telegr & Teleph Corp <Ntt> 関係情報抽出装置、その方法及びプログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007272534A (ja) * 2006-03-31 2007-10-18 Advanced Telecommunication Research Institute International 省略語補完装置、省略語補完方法、及びプログラム
JP2011257791A (ja) * 2010-06-04 2011-12-22 Nippon Telegr & Teleph Corp <Ntt> 関係情報抽出装置、その方法及びプログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP4280036A1 (en) * 2022-05-19 2023-11-22 OMRON Corporation Character input device, character input method, and character input program

Similar Documents

Publication Publication Date Title
Yeh Speech act identification using semantic dependency graphs with probabilistic context-free grammars
Kumawat et al. POS tagging approaches: A comparison
US8719006B2 (en) Combined statistical and rule-based part-of-speech tagging for text-to-speech synthesis
US7860705B2 (en) Methods and apparatus for context adaptation of speech-to-speech translation systems
US20220215183A1 (en) Automatic post-editing model for neural machine translation
US7136802B2 (en) Method and apparatus for detecting prosodic phrase break in a text to speech (TTS) system
US20040024585A1 (en) Linguistic segmentation of speech
Singh et al. Part of speech tagging of Marathi text using trigram method
Narasimhan et al. Morphological segmentation for keyword spotting
WO2012079257A1 (zh) 机器翻译装置和方法
JP2018205945A (ja) 対話応答文書自動作成人工知能装置
JP2019087058A (ja) 文章中の省略を特定する人工知能装置
JP5722375B2 (ja) 文末表現変換装置、方法、及びプログラム
Gu et al. Concept-based speech-to-speech translation using maximum entropy models for statistical natural concept generation
Monga et al. Speech to Indian Sign Language Translator
Mammadov et al. Part-of-speech tagging for azerbaijani language
Alfaidi et al. Exploring the performance of farasa and CAMeL taggers for arabic dialect tweets.
JP2018077604A (ja) 機能記述からの実現手段・方法の侵害候補を自動特定する人工知能装置
JP4478042B2 (ja) 頻度情報付き単語集合生成方法、プログラムおよびプログラム記憶媒体、ならびに、頻度情報付き単語集合生成装置、テキスト索引語作成装置、全文検索装置およびテキスト分類装置
Kirchhoff et al. Morphological modeling for machine translation of english-iraqi arabic spoken dialogs
JP2006127405A (ja) バイリンガルパラレルテキストをアライメントする方法及びそのためのコンピュータで実行可能なプログラム
KR20200132344A (ko) 입력 시퀀스 생성 방법 및 장치
CN113326694B (zh) 基于情感传播的隐式情感词典生成方法
JP6325789B2 (ja) 翻訳装置及び翻訳プログラム
JP7494935B2 (ja) 推定装置、推定方法、および、推定プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180315

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190625

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20200114