JP2019087058A - 文章中の省略を特定する人工知能装置 - Google Patents
文章中の省略を特定する人工知能装置 Download PDFInfo
- Publication number
- JP2019087058A JP2019087058A JP2017215130A JP2017215130A JP2019087058A JP 2019087058 A JP2019087058 A JP 2019087058A JP 2017215130 A JP2017215130 A JP 2017215130A JP 2017215130 A JP2017215130 A JP 2017215130A JP 2019087058 A JP2019087058 A JP 2019087058A
- Authority
- JP
- Japan
- Prior art keywords
- sentence
- clause
- noun
- sentences
- clauses
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013473 artificial intelligence Methods 0.000 title abstract description 11
- 238000003058 natural language processing Methods 0.000 abstract description 14
- 230000001755 vocal effect Effects 0.000 abstract 1
- 239000000284 extract Substances 0.000 description 5
- 238000000605 extraction Methods 0.000 description 5
- 230000001419 dependent effect Effects 0.000 description 4
- 238000000034 method Methods 0.000 description 4
- 230000011218 segmentation Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 2
- 241001655798 Taku Species 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
Abstract
【課題】自然言語処理型人工知能において、文章中に繰り返し記述がある場合に、前方または後方の文章、文または文節の記述の重複を省くために用いる言葉から省略した元の文章、文または文節を自動特定する【解決手段】本願の発明の概略を説明すれば、以下の通りである。すなわち本発明は、文章に対して自然言語処理を行い、その結果をもとに文節ごとに分け、文節同士の関係性、およびそれぞれの文節内の名詞および名詞に係る品詞、および動詞から作成した動名詞の組み合わせを得る。そのうえで前述、前記、後述、後記の記述等やこれらの後に続く単語等、または特定の文章全体を指定する単語等から、前方や後方にある同単語等に係る1文節または文節の組み合わせを抽出することで、重複による省略した文章、文、文節等を特定する【選択図】図1
Description
本発明は、作成された文章内容において文章中に繰り返し記述がある場合に、前方または後方の文章、文または文節の記述の重複を省くために用いる言葉から省略した元の文章、文または文節を自動特定する自然言語処理系の人工知能を実現するシステムおよび人工知能を実現するソフトウエアに適用して有効な技術に関する
従来の自然言語処理系の人工知能は、文章を品詞分解し、名詞比較を行い、蓄積データから類似する名詞を抽出し、その名詞を含む文章を抽出するものである。それゆえ文章、文節の省略や他の言葉での置き換えに対しては、置き換えた言葉自信を比較対象として文章を抽出してしまう為、文章、文、文節の省略や他の言葉での置き換えた後の文字を元に省略や置き換える前の文章や文、文節を抽出することは、従来困難であった。
MeCab: http://mecab.sourceforge.net/
CaboCha:http://chasen.org/~taku/software/cabocha/
自然言語処理型人工知能において、文章中に繰り返し記述がある場合に、前方または後方の文章、文または文節の記述の重複を省くために用いる言葉から省略した元の文章、文または文節を自動特定する。例えば、前記とある場合は、その前記の文章、文章または文節を認識し、元の文章または文節がどこを指すかを認識できるようにする。
本願の発明の概略を説明すれば、以下の通りである。すなわち本発明は、文章に対して自然言語処理を行い、その結果をもとに文節ごとに分け、文節同士の関係性、およびそれぞれの文節内の名詞および名詞に係る品詞、および動詞から作成した動名詞の組み合わせを得る。そのうえで前述、前記、後述、後記の記述等やこれらの後に続く単語等、または特定の文章全体を指定する単語等から、前方または後方にある同単語等に係る1文節または文節の組み合わせを抽出することで、重複による省略した文章、文、文節等を特定する。
以下、本発明の実施の形態を図面に基づいて詳細に説明する。ただし、本発明は多くの異なる態様で実施することが可能であり、本実施の形態の記載内容に限定して解釈すべきではない。なお、実施の形態の全体を通して同じ要素には同じ番号を付するものとする。
以下の実施の形態では、主に方法またはシステムについて説明するが、当業者であれば明らかなとおり、本発明はコンピュータで使用可能なプログラムとしても実施できる。したがって、本発明は、ハードウェアとしての実施形態、ソフトウェアとしての実施形態またはソフトウェアとハードウェアとの組合せの実施形態をとることができる。プログラムは、ハードディスク、CD−ROM、光記憶装置または磁気記憶装置、半導体記憶装置等の任意のコンピュータ可読媒体に記録できる。
また以下の実施の形態では、一般的なコンピュータシステムを用いることができる。実施の形態で用いることができるコンピュータシステムは、中央演算処理装置(CPU)、グラフィックス プロセッシング ユニット(GPU)、主記憶装置(メインメモリ:RAM)、不揮発性記憶装置(ROM)、コプロセッサ、画像アクセラレータ、キャッシュメモリ、入出力制御装置(I/O)等、一般的にコンピュータシステムに備えられるハードウェア資源を備える。また、ハードディスク装置等の外部記憶装置、インターネット等のネットワークに接続可能な通信手段を備えることができる。コンピュータシステムには、パーソナルコンピュータ、ワークステーション、メインフレームコンピュータ等各種のコンピュータやタブレットコンピュータ、スマートフォン等各種携帯情報端末が含まれる。
本発明は、自然言語処理をコアとする人工知能において、文章中に繰り返し記述がある場合に、前方または後方の文章、文または文節の記述の重複を省くために用いる言葉から省略した元の文章、文または文節を自動特定することにある。
図1は、本発明の実施の形態である自然言語処理をコアとする人工知能構成の一例を示した概念図である。図1の入力部(001)、自然言語処理部(002)、文節処理部(003)、省略分析部(004)、出力部(005)を含む。
入力部は、文章(テキスト文)を自然言語処理部に受け渡す。ここでの文章とは、音声テキスト変換後の文章、キーボード等の入力装置からの文章を含む。自然言語処理部は、公知技術である、MeCab,CaboCha等に代表される形態素解析、係り受け解析を行い、文章を品詞分解した各語が、他のどの語にかかっているかという結果を得ることができる。この結果を用い、文節処理部では、分節抽出と、分節処理を行う。文節抽出処理では、自然言語処理結果をもとに文節に分ける。文節の分解(文節抽出)は、句読点での分割を基本とし、分割した句読点間(文の始まりから最初の句読点までの場合も含む)に動詞を含む場合は、次の句読点までを文節する。動詞を含まない場合は、次の句読点までに動詞を含むかどうかを確認し、動詞を含むまで繰り返し、その繰り返した句読点間(文の始まりから最初の句読点までの場合も含む)すべてを1つの文節とする。文節抽出処理の結果によって得たそれぞれの文節について文節処理を行う。分節処理では自然言語処理を行い、各文節内での係り受け解析結果から、文節内の語の関係性を得る。 句点の区切りを文と判断する。文章は、文の組み合わせとして扱い、文章の区切りは、章を区切る任意の言葉の前の文までを文章の区切りとして扱う、または章を区切る任意の言葉が存在しない場合は、文と文を結び付ける接続詞が存在する場合は、同一の文章として扱う、または自然言語処理における係り受け関係から文中のそれぞれの名詞とその名詞が係り受け帰結する(動)名詞が文章の最初の文の文中のそれぞれの名詞とその名詞が係り受けする(動)名詞との間で任意の割合で一致する文までを同一の文章として扱い、同時に文章として認識した文と文の間に存在する文の文中のそれぞれの名詞とその名詞が係り受けする(動)名詞が、文章の後に来る文の文中のそれぞれの名詞とその名詞が係り受けする(動)名詞との間に任意の割合で一致する文までを同一の文章として扱う。
省略分析部では、文章、文または文節内において特定の文を指し示す任意のキーワード、または前述、前記、後述、後記等のように繰り返す内容の文章、文、文節を省略して使用するキーワードを文節処理部の結果から抽出した場合、省略特定処理を行う。
文内に特定の文または文章を指し示す任意のキーワードを抽出した場合、つまりは省略形であるキーワードを含む文において、この省略であるキーワードがこの文よりも前の文を表す。これは第二の文中の記述において、第一の文という表現のように任意のキーワードによって前述の文を特定する。分節抽出処理により抽出した文において、省略キーワードを含む文より前の文であり、かつ現在の文の位置を最初の文からの相対番号を特定し、省略のキーワードの番号からその位置を特定する。同様に文章内に特定の文章を指し示す任意のキーワードを抽出した場合、つまりは省略形であるキーワードを含む文章において、この省略であるキーワードがこの文章よりも前の文章を表す場合である。これは第二の文章中の記述において、第一の文章という表現のように任意のキーワードによって前述の文章を特定する。省略キーワードを含む文章より前の文章であり、かつ現在の文章の位置を最初の文章からの相対番号を特定し、省略のキーワードの番号からその省略に対する文章として特定する。
前述、前記等のように繰り返す内容の文章、文、文節を省略して使用するキーワードの後に、「の」等と(動)名詞を伴う場合、この(動)名詞に係る文、文節でかつ前述、前記等を含む文、文節よりも前の文、文節のうちこの(動)名詞を含む文、文章により近い文、文節において、この(動)名詞を含む文、文章を抽出し、この(動)名詞に係る文、文節を前述、前記等の元として特定する。
後述、後記等のように繰り返す内容の文章、文、文節を省略して使用するキーワードの後に、「の」等と(動)名詞を伴う場合、この(動)名詞に係る文、文節でかつ後述、後記等を含む文、文節よりも後の文、文節のうち、この(動)名詞を含む文、文章により近い文、文節において、この(動)名詞を含む文、文章を抽出し、この(動)名詞に係る文、文節を後述、後記等の元として特定する。
前述、前記等のように繰り返す内容の文章、文、文節を省略して使用するキーワードの後に、「の」等と(動)名詞を含まない場合、前述、前記等に続く文節、文を文節処理部において係り受け分解した結果での文節中、文中のそれぞれの名詞とその名詞が係り受けする(動)名詞をキーワードに前述、前記等を含む文節、文よりも前かつ前述、前記等を含む文に近い文から抽出し、このキーワードを含む文を前述、前記等の元として特定する。
後述、後記等のように繰り返す内容の文章、文、文節を省略して使用するキーワードの後に、「の」等と(動)名詞を含まない場合、後述、後記等に続く文節、文を文節処理部において係り受け分解した結果での文節中、文中のそれぞれの名詞とその名詞が係り受けする(動)名詞をキーワードに前述、前記等を含む文節、文よりも後ろかつ後述、後記等を含む文に近い文から抽出し、このキーワードを含む文を後述、後記等の元として特定する。
特許などの文章中、「請求項1に加えて」や、「前述のXXX」など省略内容を自動認識し、本来の文意に戻して、自動解析する知財向け人工知能に利用
Claims (1)
- 文章中に繰り返し記述がある場合に、前方または後方の文章、文または文節の記述の重複を省くために用いる言葉から省略した元の文章、文または文節を自動特定する人工知能プログラム、または同プログラムを持つ装置、又は同プログラムを格納するメディア
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017215130A JP2019087058A (ja) | 2017-11-07 | 2017-11-07 | 文章中の省略を特定する人工知能装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017215130A JP2019087058A (ja) | 2017-11-07 | 2017-11-07 | 文章中の省略を特定する人工知能装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2019087058A true JP2019087058A (ja) | 2019-06-06 |
Family
ID=66763114
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017215130A Pending JP2019087058A (ja) | 2017-11-07 | 2017-11-07 | 文章中の省略を特定する人工知能装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2019087058A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP4280036A1 (en) * | 2022-05-19 | 2023-11-22 | OMRON Corporation | Character input device, character input method, and character input program |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007272534A (ja) * | 2006-03-31 | 2007-10-18 | Advanced Telecommunication Research Institute International | 省略語補完装置、省略語補完方法、及びプログラム |
JP2011257791A (ja) * | 2010-06-04 | 2011-12-22 | Nippon Telegr & Teleph Corp <Ntt> | 関係情報抽出装置、その方法及びプログラム |
-
2017
- 2017-11-07 JP JP2017215130A patent/JP2019087058A/ja active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007272534A (ja) * | 2006-03-31 | 2007-10-18 | Advanced Telecommunication Research Institute International | 省略語補完装置、省略語補完方法、及びプログラム |
JP2011257791A (ja) * | 2010-06-04 | 2011-12-22 | Nippon Telegr & Teleph Corp <Ntt> | 関係情報抽出装置、その方法及びプログラム |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP4280036A1 (en) * | 2022-05-19 | 2023-11-22 | OMRON Corporation | Character input device, character input method, and character input program |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Yeh | Speech act identification using semantic dependency graphs with probabilistic context-free grammars | |
Kumawat et al. | POS tagging approaches: A comparison | |
US8719006B2 (en) | Combined statistical and rule-based part-of-speech tagging for text-to-speech synthesis | |
US7860705B2 (en) | Methods and apparatus for context adaptation of speech-to-speech translation systems | |
US20220215183A1 (en) | Automatic post-editing model for neural machine translation | |
US7136802B2 (en) | Method and apparatus for detecting prosodic phrase break in a text to speech (TTS) system | |
US20040024585A1 (en) | Linguistic segmentation of speech | |
Singh et al. | Part of speech tagging of Marathi text using trigram method | |
Narasimhan et al. | Morphological segmentation for keyword spotting | |
WO2012079257A1 (zh) | 机器翻译装置和方法 | |
JP2018205945A (ja) | 対話応答文書自動作成人工知能装置 | |
JP2019087058A (ja) | 文章中の省略を特定する人工知能装置 | |
JP5722375B2 (ja) | 文末表現変換装置、方法、及びプログラム | |
Gu et al. | Concept-based speech-to-speech translation using maximum entropy models for statistical natural concept generation | |
Monga et al. | Speech to Indian Sign Language Translator | |
Mammadov et al. | Part-of-speech tagging for azerbaijani language | |
Alfaidi et al. | Exploring the performance of farasa and CAMeL taggers for arabic dialect tweets. | |
JP2018077604A (ja) | 機能記述からの実現手段・方法の侵害候補を自動特定する人工知能装置 | |
JP4478042B2 (ja) | 頻度情報付き単語集合生成方法、プログラムおよびプログラム記憶媒体、ならびに、頻度情報付き単語集合生成装置、テキスト索引語作成装置、全文検索装置およびテキスト分類装置 | |
Kirchhoff et al. | Morphological modeling for machine translation of english-iraqi arabic spoken dialogs | |
JP2006127405A (ja) | バイリンガルパラレルテキストをアライメントする方法及びそのためのコンピュータで実行可能なプログラム | |
KR20200132344A (ko) | 입력 시퀀스 생성 방법 및 장치 | |
CN113326694B (zh) | 基于情感传播的隐式情感词典生成方法 | |
JP6325789B2 (ja) | 翻訳装置及び翻訳プログラム | |
JP7494935B2 (ja) | 推定装置、推定方法、および、推定プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180315 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190625 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20200114 |