JP6400038B2 - 抽出装置および抽出方法 - Google Patents
抽出装置および抽出方法 Download PDFInfo
- Publication number
- JP6400038B2 JP6400038B2 JP2016055499A JP2016055499A JP6400038B2 JP 6400038 B2 JP6400038 B2 JP 6400038B2 JP 2016055499 A JP2016055499 A JP 2016055499A JP 2016055499 A JP2016055499 A JP 2016055499A JP 6400038 B2 JP6400038 B2 JP 6400038B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- information providing
- providing apparatus
- words
- distribution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000605 extraction Methods 0.000 title claims description 80
- 238000009826 distribution Methods 0.000 claims description 126
- 239000000284 extract Substances 0.000 claims description 75
- 238000004364 calculation method Methods 0.000 claims description 11
- 238000013459 approach Methods 0.000 claims description 9
- 238000000034 method Methods 0.000 description 53
- 230000008569 process Effects 0.000 description 44
- 238000012545 processing Methods 0.000 description 41
- 230000014509 gene expression Effects 0.000 description 38
- 238000010586 diagram Methods 0.000 description 22
- 230000006870 function Effects 0.000 description 21
- 238000003860 storage Methods 0.000 description 17
- 230000006399 behavior Effects 0.000 description 16
- 238000004458 analytical method Methods 0.000 description 11
- 230000009977 dual effect Effects 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 6
- 241000209094 Oryza Species 0.000 description 5
- 235000007164 Oryza sativa Nutrition 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 5
- 230000000306 recurrent effect Effects 0.000 description 5
- 235000009566 rice Nutrition 0.000 description 5
- 239000013598 vector Substances 0.000 description 5
- 241000723353 Chrysanthemum Species 0.000 description 4
- 235000007516 Chrysanthemum Nutrition 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 238000000354 decomposition reaction Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 235000013305 food Nutrition 0.000 description 3
- 230000010365 information processing Effects 0.000 description 3
- 235000013372 meat Nutrition 0.000 description 3
- 230000000877 morphologic effect Effects 0.000 description 3
- 210000002569 neuron Anatomy 0.000 description 3
- 235000020995 raw meat Nutrition 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000010411 cooking Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 239000003607 modifier Substances 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000003756 stirring Methods 0.000 description 2
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Landscapes
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
まず、図1を用いて、情報提供装置10が実行する処理の一例について説明する。図1は、実施形態にかかる情報提供装置の一例を示す図である。例えば、図1に示す例では、情報提供装置10は、複数の利用者がブレインストーミング等の会議を行っている際に、利用者の発言を入力情報として取得し、取得した入力情報に基づいて、通常の思考では浮かばないような発言を生成し、生成した発言を音声に変換してロボット等に出力させることで、利用者の思考を支援する処理の一例について記載した。なお、以下の説明では、情報提供装置10が実行する処理を学習処理と抽出処理とに分けて説明する。
ここで、従来技術では、入力されたテキストを構成する複数次元の単語ベクトルで示す分散表現を用いて、入力されたテキストと類似するテキストや、入力されたテキストに続くテキストを類推する。しかしながら、従来技術では、入力されたテキストと分散表現が類似するテキスト、すなわち、利用者が予測しうるテキストを出力するに過ぎない。このため、従来技術では、利用者が思いもしなかった情報や、利用者に新規なひらめきを与えるような情報、すなわち、利用者のセレンディピティ(ひらめき、気づき、驚き)を起こし得る情報を提供することができなかった。また、例えば、単純に入力されたテキストとは分散表現が類似しないテキストを出力した場合には、利用者の思考とは関係がないテキストを出力することとなり、利用者の思考を阻害する場合がある。
そこで、情報提供装置10は、以下の処理を実行する。まず、情報提供装置10は、利用者の発言等を入力情報として受付ける。また、情報提供装置10は、入力情報が属する分野を特定する。ここで、入力情報が属する分野とは、例えば、利用者の発言に含まれる単語が医療分野に属する単語であるか、物理学分野に属する単語であるか、料理分野に属する単語であるか等、入力情報が主に使用されている技術的な分野である。
例えば、情報提供装置10は、圏論の構造として、単語間の結合および分解を示すカルテシアン積の関係を示す構造に基づいて、特定された単語が属する分野とは異なる分野に属する単語を抽出する。より具体的には、情報提供装置10は、入力された文章に含まれる動詞を名詞間の関係を示す関手と見做し、入力された文章に含まれる名詞間の構造を圏論の構造にあてはめて抽出する。そして、情報提供装置10は、抽出した圏論の構造と同様の構造を有する他の単語群を、入力された単語が属する分野とは異なる分野に属する単語を抽出する。
ここで、圏論を用いて抽出された単語群は、入力された単語群と同様のアナロジーを有する他分野に属する単語群であったり、他のアイデアや発想の概念が組み込まれた単語群となりえる。しかしながら、このような単語群は、元の単語群から利用者が容易に導き出すことができる概念を有する場合がある。特に、利用者のセレンディピティを起こし得るような概念は、利用者の発言に含まれる概念からある程度の類似性を有する概念のうち、利用者が想像もしていないような概念であると考えられる。
ここで、圏論や大偏差原理に基づいて、セレンディピティを起こし得る単語群を抽出できたとしても、その単語群をそのまま出力した場合には、単語同士の係り受けが不明確となり、セレンディピティが生じる可能性が悪化する恐れがある。
次に、図1を用いて、情報提供装置10が実行する抽出処理および学習処理の一例について説明する。例えば、図1に示す例では、情報提供装置10は、抽出処理に先駆けて、学習器と復元器との学習を行う学習処理を実行する(ステップS1)。このような学習処理においては、情報提供装置10は、明細書等の所定の文章を学習データとしてインターネット等を介して収集し、収集した文章に含まれる単語群を抽出する(ステップS2)。続いて、情報提供装置10は、抽出した単語群に含まれる各単語を、学習データとした文章内で出力する順(以下、「出現順」と記載する)で、学習器に入力し、特徴と出現順とを学習させる(ステップS3)。そして、情報提供装置10は、学習器の学習結果から、特徴を学習した単語群に含まれる各単語を、係り受けとともに、出現順に復元するように、復元器の学習を行う(ステップS4)。なお、ステップS3およびステップS4に示す処理は、同時におこなわれることとなる。このような処理を繰り返すことで、情報提供装置10は、単語群に含まれる各単語の自然な係り受けを作成可能な学習器と復元器とを生成することができる。
、情報提供装置10が実行する抽出処理の流れをステップS7〜ステップS13に分けて説明する。
次に、図2を用いて、図1に示した学習処理および抽出処理を実行する情報提供装置10の構成について説明する。図2は、実施形態にかかる情報提供装置が有する機能構成の一例を示す図である。図2に示すように、情報提供装置10は、入力装置30および出力装置31と接続されている。また、情報提供装置10は、通信部11、記憶部12、および制御部16を有する。
受付部17は、利用者の発言を入力情報として受付ける。例えば、受付部17は、マイクやキーボード等により実現される入力装置30から利用者の発言を取得する。かかる場合、受付部17は、受付けた利用者の発言をテキストデータに変換する。そして、受付部17は、変換後のテキストデータを分野特定部18に出力する。
図2に戻り、説明を続ける。類似度算出部21は、概念特定部20によって特定された単語群を基準単語とし、基準単語の分散表現と他の単語の分散表現との間のコサイン類似度を算出する。例えば、類似度算出部21は、分散表現空間データベース15に分散表現が含まれる各単語の分散表現を特定し、基準単語の分散表現とのコサイン類似度を算出する。
図2に戻り、説明を続ける。出力生成部24は、後述する収集部26およびRNN学習部27によって学習された学習器(エンコーダ)と復元器(デコーダ)とを用いて、出力候補抽出部23が抽出した単語群から、単語群に含まれる各単語の係り受けを取得する。そして、出力生成部24は、各単語の係り受けを考慮した文章を出力対象として生成する。より具体的には、出力生成部24は、モデルデータベース14から学習器および復元器を読出し、学習器に単語群を入力する。そして、出力生成部24は、復元器を用いて、学習器が取得した特徴から各単語と各単語の係り受けとを復元し、復元した単語と係り受けとから出力対象となる文章を生成する。
収集部26は、学習データの収集を行い、学習データに含まれる単語群を抽出する。例えば、収集部26は、明細書や小説等の文章のデータを学習データとして収集し、文献データベース13に登録する。そして、収集部26は、文献データベース13に登録された文章から、単語群を抽出し、抽出した単語群をRNN学習部27に出力する。
次に、上述した抽出処理と学習処理とを実行する際に使用する数式の一例について説明する。以下の説明では、学習処理に用いられる数式の一例について説明し、その後、抽出処理に用いられる数式の一例について説明する。
例えば、時刻「t」における学習器の「j」番目のノードの状態を「hj <t>」と記載すると、学習器における各ノードの状態は、以下の式(1)で表すことができる。ここで、式(1)中の波付き「hj <t>」は、式(2)で表すことができ、「zj」および「rj」は、以下の式(3)および式(4)で表される。ここで、「xt」は、「t」番目の入力を示す。また、式(2)〜式(4)の「W」および「U」は、学習器の接続係数を示すパラメータである。
次に、抽出処理において、大偏差原理に基づいて、セレンディピティを生じさせうる単語を抽出する処理に用いる数式の一例について説明する。例えば、分散表現空間を学習する際に用いた文章中の全単語数を「T」、周辺の単語の数を「c」、コーパス全体の単語数をWとおくと、W2V(Word 2 Vector)における確率モデルは、以下の式(11)で示される。
次に、図11〜図13を用いて、情報提供装置10が実行する処理の流れについて説明する。まず、図11を用いて、情報提供装置10が実行する学習処理の流れの一例について説明する。図11は、実施形態にかかる情報提供装置が実行する学習処理の流れを説明するフローチャートである。
上記では、図1に例示した態様を用いながら、情報提供装置10が実行する処理の一例について説明した。しかしながら、実施形態は、これに限定されるものではない。以下、情報提供装置10が実行する抽出処理のバリエーションについて説明する。
上述した例では、情報提供装置10は、セレンディピティを起こさせる可能性を高めるため、入力された文章に含まれる単語群が有する圏論の構造に基づいて、同様の構造を有する他分野に属する単語群を抽出する第1の抽出処理とともに、大偏差原理に基づいて、抽出した単語群から、さらにセレンディピティを起こさせる可能性が高い単語群を抽出する第2の抽出処理を行った。また、情報提供装置10は、学習器および復元器の学習処理を実行し、学習器および復元器を用いて、第1の抽出処理および第2の抽出処理により抽出された単語群から係り受けを含む文章を生成した。しかしながら、実施形態は、これに限定されるものではない。
また、上記実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。
また、上述してきた実施形態に係る情報提供装置10は、例えば図14に示すような構成のコンピュータ1000によって実現される。図14は、ハードウェア構成の一例を示す図である。コンピュータ1000は、出力装置1010、入力装置1020と接続され、演算装置1030、一次記憶装置1040、二次記憶装置1050、出力IF(Interface)1060、入力IF1070、ネットワークIF1080がバス1090により接続された形態を有する。
上述したように、情報提供装置10は、指定された基準単語の分散表現と他の単語の分散表現との間の類似度を算出し、算出した類似度の分布を確率分布として推定する。そして、情報提供装置10は、大偏差原理に基づいて、基準単語の分散表現と他の単語の分散表現の類似度の確率分布が、サンプルサイズを増やしたときに近づく平均分布形状から外れていく挙動を分析し、その挙動に基づいて、所定の分布形状を抽出する。その後、情報提供装置10は、抽出された分布形状において、ある閾値以上の確率で現れる単語を出力候補として抽出する。このため、情報提供装置10は、セレンディピティを生じさせる単語群を出力することができる結果、利用者の創作を援助する情報を出力することができる。
11 通信部
12 記憶部
13 文献データベース
14 モデルデータベース
15 分散表現空間データベース
16 制御部
17 受付部
18 分野特定部
19 構造抽出部
20 概念特定部
21 類似度算出部
22 分布推定部
23 出力候補抽出部
24 出力生成部
25 出力部
26 収集部
27 RNN学習部
30 入力装置
31 出力装置
Claims (5)
- 指定された基準単語の分散表現と他の単語の分散表現との間の類似度を算出する算出部と、
前記算出部が算出した類似度の分布を確率分布として推定する推定部と、
大偏差原理に基づいて、前記基準単語の分散表現と他の単語の分散表現の類似度の確率分布が、サンプルサイズを増やしたときに近づく平均分布形状から外れていく挙動を分析し、その挙動に基づいて、所定の分布形状を抽出する分布形状抽出部と
前記抽出された分布形状において、ある閾値以上の確率で現れる単語を出力候補として抽出する抽出部と
を有することを特徴とする抽出装置。 - 前記算出部は、前記類似度として、前記基準単語の分散表現と、他の単語の分散表現との間のコサイン類似度を算出する
ことを特徴とする請求項1に記載の抽出装置。 - 前記抽出部は、前記基準単語の分散表現と他の単語の分散表現との類似度が属する確率の確率測度のレート関数を用いて、前記基準単語の分散表現と他の単語の分散表現の類似度の確率分布が前記サンプルサイズを増やしたときの挙動を分析する
ことを特徴とする請求項1または2に記載の抽出装置。 - 前記抽出部は、ヴァラダンの定理を用いて、前記基準単語の分散表現と他の単語の分散表現との類似度が属する確率の確率測度のレート関数を算出する
ことを特徴とする請求項3に記載の抽出装置。 - 抽出装置が実行する抽出方法であって、
指定された基準単語の分散表現と他の単語の分散表現との間の類似度を算出する算出工程と、
前記算出工程で算出した類似度の分布を確率分布として推定する推定工程と、
大偏差原理に基づいて、前記基準単語の分散表現と他の単語の分散表現の類似度の確率分布が、サンプルサイズを増やしたときに近づく平均分布形状から外れていく挙動を分析し、その挙動に基づいて、所定の分布形状を抽出する分布形状抽出工程と
前記抽出された分布形状において、ある閾値以上の確率で現れる単語を出力候補として抽出する抽出工程と
を含むことを特徴とする抽出方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016055499A JP6400038B2 (ja) | 2016-03-18 | 2016-03-18 | 抽出装置および抽出方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016055499A JP6400038B2 (ja) | 2016-03-18 | 2016-03-18 | 抽出装置および抽出方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017173866A JP2017173866A (ja) | 2017-09-28 |
JP6400038B2 true JP6400038B2 (ja) | 2018-10-03 |
Family
ID=59971198
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016055499A Active JP6400038B2 (ja) | 2016-03-18 | 2016-03-18 | 抽出装置および抽出方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6400038B2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6963535B2 (ja) * | 2018-06-05 | 2021-11-10 | 株式会社日立製作所 | 分析方法、分析装置及びプログラム |
JP6501439B1 (ja) * | 2018-08-27 | 2019-04-17 | 株式会社think−plus | 思考支援システム、思考支援プログラム、思考支援プログラム記憶媒体、および思考支援情報記録媒体 |
JP6991124B2 (ja) * | 2018-12-28 | 2022-01-12 | ヤフー株式会社 | 提供装置、提供方法および提供プログラム |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5565568B2 (ja) * | 2010-03-30 | 2014-08-06 | 日本電気株式会社 | 情報推薦装置、情報推薦方法およびプログラム |
KR101252397B1 (ko) * | 2011-06-02 | 2013-04-08 | 포항공과대학교 산학협력단 | 웹을 이용한 정보 검색 방법 및 이를 사용하는 음성 대화 방법 |
-
2016
- 2016-03-18 JP JP2016055499A patent/JP6400038B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2017173866A (ja) | 2017-09-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wang et al. | Enabling conversational interaction with mobile ui using large language models | |
Li et al. | Imbalanced text sentiment classification using universal and domain-specific knowledge | |
CN108475262A (zh) | 用于文本处理的电子设备和方法 | |
JP6649536B1 (ja) | 対話処理装置、学習装置、対話処理方法、学習方法及びプログラム | |
JP2019049604A (ja) | 命令文推定システムおよび命令文推定方法 | |
WO2017136674A1 (en) | Generating feature embeddings from a co-occurrence matrix | |
JP6400038B2 (ja) | 抽出装置および抽出方法 | |
JP2019079088A (ja) | 学習装置、プログラムパラメータおよび学習方法 | |
JP6391617B2 (ja) | 学習装置、文章自動生成装置および学習方法 | |
CN111368082A (zh) | 一种基于层次网络的领域自适应词嵌入的情感分析方法 | |
CN105989067A (zh) | 从图片生成文本摘要的方法、用户设备及训练服务器 | |
KR102697095B1 (ko) | Qa 모델을 이용하여 지식 그래프를 구축하는 방법, 장치 및 컴퓨터 프로그램 | |
JP6770709B2 (ja) | 機械学習用モデル生成装置及びプログラム。 | |
CN115408502A (zh) | 在同步会议中认知学习以生成模拟现场代理动作的脚本 | |
JP2019021218A (ja) | 学習装置、プログラムパラメータ、学習方法およびモデル | |
WO2021234610A1 (en) | Method of and system for training machine learning algorithm to generate text summary | |
JP6082657B2 (ja) | ポーズ付与モデル選択装置とポーズ付与装置とそれらの方法とプログラム | |
JP6964481B2 (ja) | 学習装置、プログラムおよび学習方法 | |
CN112307738A (zh) | 用于处理文本的方法和装置 | |
JP6680655B2 (ja) | 学習装置および学習方法 | |
JP7099254B2 (ja) | 学習方法、学習プログラム及び学習装置 | |
JP6461032B2 (ja) | 抽出装置および抽出方法 | |
JP6526607B2 (ja) | 学習装置、学習方法、および学習プログラム | |
Pandit et al. | How good is your model ‘really’? on ‘wildness’ of the in-the-wild speech-based affect recognisers | |
Dangol et al. | Short Updates-Machine Learning Based News Summarizer |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170919 |
|
TRDD | Decision of grant or rejection written | ||
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20180727 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180807 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180904 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6400038 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |