JP6976155B2 - 類似テキスト抽出装置、自動応答システム、類似テキスト抽出方法、およびプログラム - Google Patents
類似テキスト抽出装置、自動応答システム、類似テキスト抽出方法、およびプログラム Download PDFInfo
- Publication number
- JP6976155B2 JP6976155B2 JP2017241527A JP2017241527A JP6976155B2 JP 6976155 B2 JP6976155 B2 JP 6976155B2 JP 2017241527 A JP2017241527 A JP 2017241527A JP 2017241527 A JP2017241527 A JP 2017241527A JP 6976155 B2 JP6976155 B2 JP 6976155B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- target
- text
- similar
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000605 extraction Methods 0.000 title claims description 54
- 230000004044 response Effects 0.000 title claims description 35
- 239000013598 vector Substances 0.000 claims description 120
- 238000012545 processing Methods 0.000 claims description 28
- 238000004364 calculation method Methods 0.000 claims description 23
- 230000014509 gene expression Effects 0.000 claims description 21
- 238000002372 labelling Methods 0.000 claims description 12
- 239000000284 extract Substances 0.000 claims description 8
- 238000012993 chemical processing Methods 0.000 claims 1
- 238000009795 derivation Methods 0.000 description 22
- 238000000034 method Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 8
- 239000002245 particle Substances 0.000 description 7
- 230000008569 process Effects 0.000 description 6
- 230000006870 function Effects 0.000 description 3
- 230000000877 morphologic effect Effects 0.000 description 3
- 230000009118 appropriate response Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 235000015220 hamburgers Nutrition 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
以下、図面を参照し、本発明の類似テキスト抽出装置、類似テキスト抽出方法、およびプログラムの実施形態について説明する。類似テキスト抽出装置は、一以上のハードウェアプロセッサにより実現される。類似テキスト抽出装置は、抽出対象のテキスト(以下、対象テキスト)から、任意に選択された第1対象テキストと類似する類似対象テキストを抽出する装置である。対象テキストは、例えば、発話をテキスト化したものであり、更に具体的には、人工知能(Artificial Intelligence; AI)により動作する自動応答装置と、人である利用者との間で行われた発話のテキスト情報である。発話は、テキスト入力とテキスト表示の形式で行われてもよいし、音声によって行われてもよい。後者の場合、音声認識などによってテキスト化された情報が発話のテキスト情報となる。なお、対象テキストは、このような発話に限らず、会話型のSNS(Social Networking Service)で交換されたメッセージでもよいし、ビデオチャットなどで交換された人同士の発話をテキスト化したものでもよい。
図1は、類似テキスト抽出装置100の機能構成と使用環境の一例を示す図である。類似テキスト抽出装置100は、例えば、導出部110と、類似度算出部120と、類似テキスト抽出部130とを備える。導出部110は、単語分割部112と、ラベル化処理部114と、単語ベクトル生成部116と、文ベクトル生成部118とを備える。これらの構成要素は、例えば、CPU(Central Processing Unit)などのハードウェアプロセッサがプログラム(ソフトウェア)を実行することにより実現される。また、これらの構成要素のうち一部または全部は、LSI(Large Scale Integration)やASIC(Application Specific Integrated Circuit)、FPGA(Field-Programmable Gate Array)、GPU(Graphics Processing Unit)などのハードウェア(回路部;circuitryを含む)によって実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。図1に示す各構成要素は、例えば、ネットワークを介して通信可能である。ネットワークは、例えば、WAN(Wide Area Network)やLAN(Local Area Network)、インターネット、無線基地局、プロバイダ端末などを含む。
導出部110は、複数の対象テキストのそれぞれについて、コーパスにおける対象テキストを分割した単語と他の単語との共起性に基づいて導出された、分割した単語の単語ベクトルに基づいて、対象テキストの特徴を示す対象文ベクトルを導出する。なお、導出部110のラベル化処理部114は、分割した単語の単語ベクトルと共に分割した単語のカテゴリ情報を取得し、分割した単語のうち概念的に共通する固有名詞を一つの抽象化されたラベルまたは代表固有名詞に置換する。そして、導出部110は、コーパスにおけるラベルまたは代表固有名詞と他の単語との共起性に基づいて導出された代表固有名詞の単語ベクトルを、概念的に共通する固有名詞の単語ベクトルとする。具体例については以下に順を追って説明する。
(1)紀尾井町(固有名詞、場所名)/の(助詞)/地図(名詞)/を(助詞)/見せて(動詞)
(3)丸の内(固有名詞、場所名)/の(助詞)/レストラン(名詞)/を(助詞)/教えて(動詞)
類似度算出部120は、導出部110によって取得された単語ベクトルに基づいて、第1対象テキストと、第1対象テキスト以外の複数の第2対象テキストとの類似度を算出する。第1対象テキストとは、例えば、発話DB10から取得された複数の対象テキストから選択された任意の対象テキストである。また、第1対象テキストは、任意に考えられた発話であってもよい。第1対象テキストの指定は、例えば、前述した入力装置を介して行われる。
Vtx={wv(1)+wv(2)+…+wv(k)}/k …(1)
Vtx={α1・wv(1)+α2・wv(2)+…+αk・wv(k)}/k …(2)
類似テキスト抽出部130は、類似度算出部120により算出された類似度が高い一以上の第2対象文ベクトルの元となった第2対象テキストを、第1対象テキストと類似する類似対象テキストとして抽出する。「類似度が高い」とは、ある基準値よりも高いことを意味してもよいし、類似度が高い順に並べた場合に所定順位以上であることを意味してもよい。類似テキスト抽出部130により抽出された類似対象テキストは、第1対象テキストと意味的に類似するものとして、正規表現DB150に登録される。
図5は、代表固有名詞を「赤坂見附」としてラベル化処理した場合の実験結果を示す図である。また、図6は、他の例による実験結果を示す図である。これらの実験は、2000万発話の対象テキストを対象として、上記説明した手法によって行われた。図5の例は、第1対象テキストを「赤坂見附の地図を見せて」とし、第1対象テキストを含めて類似度の高い上位20個の対象テキストを抽出したものである。また、図6の例は、第1対象テキストを「高速道路の渋滞状況を教えて」とし、第1対象テキストを含めて類似度の高い上位20個の対象テキストを抽出したものである。図示するように、意味的に近い対象テキストが抽出されていることがわかる。
図7は、類似テキスト抽出装置100の処理結果を利用する自動応答装置500の機能構成と使用環境の一例を示す図である。類似テキスト抽出装置100と自動応答装置500を合わせて自動応答システム50が構成されてもよい。なお、自動応答システム50は、類似テキスト抽出装置100と自動応答装置500を統合した一つの装置であってもよい。
100 類似テキスト抽出装置
110 導出部
115 ラベル化処理部
120 類似度算出部
130 類似テキスト抽出部
150 正規表現DB
200 単語分割装置
300 単語ベクトル生成装置
500 自動応答装置
510 正規表現抽出部
520 応答内容作成部
530 類似度算出部
Claims (12)
- 複数の対象テキストのそれぞれについて、前記対象テキストごとに単語分割を行い単語ベクトルを生成する単語ベクトル生成部と、
前記単語ベクトル生成部により生成された単語ベクトルに基づいて、前記対象テキストの特徴を示す文ベクトルを生成する文ベクトル生成部と、
前記文ベクトル生成部により生成された文ベクトルに基づいて、前記複数の対象テキストから互いに類似する対象テキストを抽出する抽出部と、
前記単語分割を行った単語の単語ベクトルと共に前記単語分割を行った単語のカテゴリ情報を取得し、前記単語分割を行った単語のうち概念的に共通する固有名詞を抽象的なラベルに置換するラベル化処理部と、
を備える類似テキスト抽出装置。 - 複数の対象テキストのそれぞれについて、前記対象テキストごとに単語分割を行い単語ベクトルを生成する単語ベクトル生成部と、
前記単語ベクトル生成部により生成された単語ベクトルに基づいて、前記対象テキストの特徴を示す文ベクトルを生成する文ベクトル生成部と、
前記文ベクトル生成部により生成された文ベクトルに基づいて、前記複数の対象テキストから互いに類似する対象テキストを抽出する抽出部と、
前記単語分割を行った単語の単語ベクトルと共に前記単語分割を行った単語のカテゴリ情報を取得し、前記単語分割を行った単語のうち概念的に共通する固有名詞を一つの代表固有名詞に置換するラベル化処理部と、
を備える類似テキスト抽出装置。 - 前記単語ベクトル生成部は、単語の共起性に基づき前記単語ベクトルを生成することを特徴とする、
請求項1または2に記載の類似テキスト抽出装置。 - 前記対象テキストは、会話コーパスから抽出されたことを特徴とする、
請求項1から3のうちいずれか1項に記載の類似テキスト抽出装置。 - 前記文ベクトル生成部は、前記対象テキストについて前記単語ベクトル生成部により生成された単語ベクトルに対して統計処理を行うことで、当該対象テキストの前記文ベクトルを生成する、
請求項1から4のうちいずれか1項記載の類似テキスト抽出装置。 - 前記文ベクトル生成部は、前記対象テキストについて前記単語ベクトル生成部により生成された単語ベクトルの平均を求めることで、当該対象テキストの前記文ベクトルを生成する、
請求項5記載の類似テキスト抽出装置。 - 前記複数の対象テキストのうち第1対象テキストについて前記文ベクトル生成部により生成された第1対象文ベクトルと、前記複数の対象テキストのうち前記第1対象テキスト以外の複数の第2対象テキストについて前記文ベクトル生成部により生成された複数の第2対象文ベクトルとの類似度を算出する算出部を更に備え、
前記抽出部は、前記算出部により算出された前記類似度が高い一以上の第2対象文ベクトルの元となった前記第2対象テキストを、前記第1対象テキストと類似する類似対象テキストとして前記複数の対象テキストから抽出する、
請求項1から6のうちいずれか1項記載の類似テキスト抽出装置。 - 前記単語ベクトル生成部は、前記単語分割を行った単語から機能表現を除外した単語について前記単語ベクトルを生成する、
請求項1から7のうちいずれか1項記載の類似テキスト抽出装置。 - 請求項7記載の類似テキスト抽出装置と、
利用者の発話に基づく検索キーで、前記抽出部により抽出された類似対象テキストと対応する前記第1対象テキストとが対応付けられた類似テキスト群を複数含むデータベースを検索し、検索結果に基づいて、前記利用者の発話に対して自動応答する自動応答装置と、
を備える自動応答システム。 - 前記自動応答装置は、前記利用者の発話に該当する前記類似対象テキストまたは前記第1対象テキストが前記データベースに存在しない場合、前記利用者の発話との類似度の高い前記第1対象テキストを前記データベースから抽出し、前記抽出した前記第1対象テキストを用いて、前記利用者の発話に対して自動応答する、
請求項9記載の自動応答システム。 - コンピュータが、
複数の対象テキストのそれぞれについて、前記対象テキストごとに単語分割を行い単語ベクトルを生成し、
前記生成した単語ベクトルに基づいて、前記対象テキストの特徴を示す文ベクトルを生成し、
前記生成した文ベクトルに基づいて、前記複数の対象テキストから互いに類似する対象テキストを抽出し、
前記単語分割を行った単語の単語ベクトルと共に前記単語分割を行った単語のカテゴリ情報を取得し、
前記単語分割を行った単語のうち概念的に共通する固有名詞を抽象的なラベルに置換する、
類似テキスト抽出方法。 - コンピュータに、
複数の対象テキストのそれぞれについて、前記対象テキストごとに単語分割を行い単語ベクトルを生成させ、
前記生成させた単語ベクトルに基づいて、前記対象テキストの特徴を示す文ベクトルを生成させ、
前記生成させた文ベクトルに基づいて、前記複数の対象テキストから互いに類似する対象テキストを抽出させ、
前記単語分割を行った単語の単語ベクトルと共に前記単語分割を行った単語のカテゴリ情報を取得させ、
前記単語分割を行った単語のうち概念的に共通する固有名詞を抽象的なラベルに置換させる、
プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017241527A JP6976155B2 (ja) | 2017-12-18 | 2017-12-18 | 類似テキスト抽出装置、自動応答システム、類似テキスト抽出方法、およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017241527A JP6976155B2 (ja) | 2017-12-18 | 2017-12-18 | 類似テキスト抽出装置、自動応答システム、類似テキスト抽出方法、およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019109654A JP2019109654A (ja) | 2019-07-04 |
JP6976155B2 true JP6976155B2 (ja) | 2021-12-08 |
Family
ID=67179807
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017241527A Active JP6976155B2 (ja) | 2017-12-18 | 2017-12-18 | 類似テキスト抽出装置、自動応答システム、類似テキスト抽出方法、およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6976155B2 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111159377B (zh) * | 2019-12-30 | 2023-06-30 | 深圳追一科技有限公司 | 属性召回模型训练方法、装置、电子设备以及存储介质 |
CN111680494B (zh) * | 2020-04-27 | 2023-05-12 | 平安科技(深圳)有限公司 | 相似文本的生成方法及装置 |
JP7138981B1 (ja) | 2021-08-11 | 2022-09-20 | Croco株式会社 | 類似度判定装置、類似度判定システム、類似度判定方法、およびプログラム |
CN117763106B (zh) * | 2023-12-11 | 2024-06-18 | 中国科学院文献情报中心 | 一种文献查重的方法、装置、存储介质及电子设备 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4576977B2 (ja) * | 2004-10-28 | 2010-11-10 | ソニー株式会社 | 情報処理装置および方法、並びにプログラム |
JP6635587B2 (ja) * | 2015-12-14 | 2020-01-29 | 日本放送協会 | 広告文選択装置及びプログラム |
-
2017
- 2017-12-18 JP JP2017241527A patent/JP6976155B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2019109654A (ja) | 2019-07-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10719507B2 (en) | System and method for natural language processing | |
US10832011B2 (en) | Question answering system using multilingual information sources | |
JP6976155B2 (ja) | 類似テキスト抽出装置、自動応答システム、類似テキスト抽出方法、およびプログラム | |
KR101881114B1 (ko) | 메시지들에서 태스크들 식별 | |
KR101634086B1 (ko) | 감정 분석을 통한 스티커 추천 방법 및 시스템 | |
US20190370398A1 (en) | Method and apparatus for searching historical data | |
EP2863300B1 (en) | Function execution instruction system, function execution instruction method, and function execution instruction program | |
JP5167546B2 (ja) | 文単位検索方法、文単位検索装置、コンピュータプログラム、記録媒体及び文書記憶装置 | |
CN103956169B (zh) | 一种语音输入方法、装置和系统 | |
US9047868B1 (en) | Language model data collection | |
CN105183761B (zh) | 敏感词替换方法和装置 | |
JP2019061662A (ja) | 情報を抽出する方法及び装置 | |
WO2014043027A2 (en) | Improving phonetic pronunciation | |
CN111737414B (zh) | 一种歌曲推荐方法及装置、服务器、存储介质 | |
JP7058574B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
JP6370962B1 (ja) | 生成装置、生成方法および生成プログラム | |
KR101677859B1 (ko) | 지식 베이스를 이용하는 시스템 응답 생성 방법 및 이를 수행하는 장치 | |
KR102088357B1 (ko) | 기계독해기반 질의응답방법 및 기기 | |
US20180068659A1 (en) | Voice recognition device and voice recognition method | |
US10380125B2 (en) | Information processing apparatus and information processing method | |
CN113254620B (zh) | 基于图神经网络的应答方法、装置、设备及存储介质 | |
JP6994289B2 (ja) | キャラクタ属性に応じた対話シナリオを作成するプログラム、装置及び方法 | |
JP2015125499A (ja) | 音声通訳装置、音声通訳方法及び音声通訳プログラム | |
CN107092679B (zh) | 一种特征词向量获得方法、文本分类方法及装置 | |
JP7096199B2 (ja) | 情報処理装置、情報処理方法、およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A712 Effective date: 20191101 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20191108 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200306 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20210129 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210209 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210409 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20211012 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20211109 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6976155 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |