JP6813591B2 - モデル作成装置、テキスト検索装置、モデル作成方法、テキスト検索方法、及びプログラム - Google Patents
モデル作成装置、テキスト検索装置、モデル作成方法、テキスト検索方法、及びプログラム Download PDFInfo
- Publication number
- JP6813591B2 JP6813591B2 JP2018552565A JP2018552565A JP6813591B2 JP 6813591 B2 JP6813591 B2 JP 6813591B2 JP 2018552565 A JP2018552565 A JP 2018552565A JP 2018552565 A JP2018552565 A JP 2018552565A JP 6813591 B2 JP6813591 B2 JP 6813591B2
- Authority
- JP
- Japan
- Prior art keywords
- text
- learning
- query
- search
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 41
- 238000001914 filtration Methods 0.000 claims description 14
- 230000006870 function Effects 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 description 30
- 238000004458 analytical method Methods 0.000 description 28
- 230000008569 process Effects 0.000 description 20
- 239000013598 vector Substances 0.000 description 14
- 238000013528 artificial neural network Methods 0.000 description 12
- 238000012545 processing Methods 0.000 description 11
- 238000004891 communication Methods 0.000 description 9
- 230000010354 integration Effects 0.000 description 9
- 230000008707 rearrangement Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 239000000284 extract Substances 0.000 description 5
- 230000004044 response Effects 0.000 description 5
- 238000010606 normalization Methods 0.000 description 3
- 241000008357 Okapia johnstoni Species 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 230000000877 morphologic effect Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000013549 information retrieval technique Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
- G06F16/90344—Query processing by using string matching techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/9032—Query formulation
- G06F16/90332—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
12、22、42 言語解析部
14、24 単語重み計算部
16 拡張クエリ作成部
16a 単語並び替え部
16b 単語フィルタリング部
18 モデル学習部
20 クエリ拡張モデル記憶部
26 検索用インデックス作成部
28 第1テキスト検索用インデックス記憶部
30 第2テキスト検索用インデックス記憶部
40 テキスト検索装置
43 テキストペア検索部
44 第1テキスト検索スコア算出部
46 拡張クエリ作成部
48 第2テキスト検索スコア算出部
50 検索スコア統合結果出力部
Claims (8)
- 学習用の第1テキストと、前記学習用の第1テキストを質問としたときの回答となる学習用の第2テキストとのペアからなる学習用テキストペア群を入力として、クエリとなるテキストに対して、拡張クエリとなるテキストを作成するクエリ拡張モデルを学習するモデル学習部と、
検索対象の第1テキストと、前記検索対象の第1テキストを質問としたときの回答となる検索対象の第2テキストとのペアからなる検索対象テキストペア群に含まれる各単語からなる検索対象テキスト単語リストを用いて、前記学習用テキストペア群から、前記検索対象テキスト単語リストに含まれない単語を除去する単語フィルタリング部と、を含み、
前記モデル学習部は、前記単語フィルタリング部によって前記検索対象テキスト単語リストに含まれない単語を除去された前記学習用テキストペア群に基づいて、前記クエリ拡張モデルを学習する、モデル作成装置。 - 学習用の第1テキストと、前記学習用の第1テキストを質問としたときの回答となる学習用の第2テキストとのペアからなる学習用テキストペア群を入力として、クエリとなるテキストに対して、拡張クエリとなるテキストを作成するクエリ拡張モデルを学習するモデル学習部
を含み、
前記モデル学習部は、前記学習用の第1テキストから作成した単語の系列データを入力として、前記学習用の第2テキストから作成した単語の系列データを推定するように前記クエリ拡張モデルを学習する、モデル作成装置。 - 学習用の第1テキストと、前記学習用の第1テキストを質問としたときの回答となる学習用の第2テキストとのペアからなる学習用テキストペア群を入力として、クエリとなるテキストに対して、拡張クエリとなるテキストを作成するクエリ拡張モデルを学習するモデル学習部
を含み、
前記モデル学習部は、前記学習用の第1テキストから作成した単語の系列データを入力として、前記学習用の第2テキストから作成した単語の系列データを推定するように前記クエリ拡張モデルを学習し、
前記学習用の第2テキストから作成した単語の系列データは、前記学習用の第2テキストを構成する単語を所定の基準により並び替えたものである、モデル作成装置。 - 検索対象の第1テキストと、前記検索対象の第1テキストを質問としたときの回答となる検索対象の第2テキストとのペアからなる検索対象テキストペア群から、入力クエリに対応する、第1テキスト及び第2テキストのペアを検索するテキスト検索装置であって、
前記入力クエリに対して、拡張クエリを作成するためのクエリ拡張モデルに基づいて、前記第2テキストを検索するための拡張クエリを作成する拡張クエリ作成部と、
前記入力クエリと前記拡張クエリとに基づいて、前記第1テキスト及び前記第2テキストのペアを検索するテキストペア検索部と、
を含み、
前記テキストペア検索部は、前記入力クエリと前記第1テキストについての検索用インデックスとによって前記第1テキストを検索すると共に、前記拡張クエリと前記第2テキストについての検索用インデックスとによって前記第2テキストを検索することで、前記第1テキスト及び前記第2テキストのペアを検索する、テキスト検索装置。 - モデル学習部と単語フィルタリング部とを含んだモデル作成装置におけるモデル作成方法であって、
前記モデル学習部が、学習用の第1テキストと、前記学習用の第1テキストを質問としたときの回答となる学習用の第2テキストとのペアからなる学習用テキストペア群、及び検索対象の第1テキストと、前記検索対象の第1テキストを質問としたときの回答となる検索対象の第2テキストとのペアからなる検索対象テキストペア群を入力として、クエリとなるテキストに対して、拡張クエリとなるテキストを作成するクエリ拡張モデルを学習する学習ステップと、
前記単語フィルタリング部が、検索対象の第1テキストと、前記検索対象の第1テキストを質問としたときの回答となる検索対象の第2テキストとのペアからなる検索対象テキストペア群に含まれる各単語からなる検索対象テキスト単語リストを用いて、前記学習用テキストペア群から、前記検索対象テキスト単語リストに含まれない単語を除去する除去ステップと、を含み、
前記学習ステップは、
前記除去ステップによって前記検索対象テキスト単語リストに含まれない単語を除去された前記学習用テキストペア群に基づいて、前記クエリ拡張モデルを学習する、モデル作成方法。 - モデル学習部を含んだモデル作成装置におけるモデル作成方法であって、
前記モデル学習部が、学習用の第1テキストと、前記学習用の第1テキストを質問としたときの回答となる学習用の第2テキストとのペアからなる学習用テキストペア群を入力として、クエリとなるテキストに対して、拡張クエリとなるテキストを作成するクエリ拡張モデルを学習する学習ステップ、を含み、
前記学習ステップは、
前記学習用の第1テキストから作成した単語の系列データを入力として、前記学習用の第2テキストから作成した単語の系列データを推定するように前記クエリ拡張モデルを学習する、モデル作成方法。 - 拡張クエリ作成部、及びテキストペア検索部を含み、第1テキストと、前記第1テキストを質問としたときの回答となる第2テキストとのペアからなる検索対象テキストペア群から、入力クエリに対応する、第1テキスト及び前記第2テキストのペアを検索するテキスト検索装置におけるテキスト検索方法であって、
前記拡張クエリ作成部が、前記入力クエリに対して、拡張クエリを作成するための予め学習されたクエリ拡張モデルに基づいて、前記第2テキストを検索するための拡張クエリを作成する作成ステップと、
前記テキストペア検索部が、前記入力クエリと前記拡張クエリとに基づいて、前記第1テキスト及び前記第2テキストのペアを検索する検索ステップと、
を含み、
前記検索ステップは、前記入力クエリと前記第1テキストについての検索用インデックスとによって前記第1テキストを検索すると共に、前記拡張クエリと前記第2テキストについての検索用インデックスとによって前記第2テキストを検索することで、前記第1テキスト及び前記第2テキストのペアを検索する、テキスト検索方法。 - コンピュータを、請求項1〜請求項3の何れか1項記載のモデル作成装置の各部、又は請求項4に記載のテキスト検索装置の各部として機能させるためのプログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016229072 | 2016-11-25 | ||
JP2016229072 | 2016-11-25 | ||
PCT/JP2017/041630 WO2018097091A1 (ja) | 2016-11-25 | 2017-11-20 | モデル作成装置、テキスト検索装置、モデル作成方法、テキスト検索方法、データ構造、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2018097091A1 JPWO2018097091A1 (ja) | 2019-10-17 |
JP6813591B2 true JP6813591B2 (ja) | 2021-01-13 |
Family
ID=62195017
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018552565A Active JP6813591B2 (ja) | 2016-11-25 | 2017-11-20 | モデル作成装置、テキスト検索装置、モデル作成方法、テキスト検索方法、及びプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US11182435B2 (ja) |
JP (1) | JP6813591B2 (ja) |
WO (1) | WO2018097091A1 (ja) |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11182435B2 (en) * | 2016-11-25 | 2021-11-23 | Nippon Telegraph And Telephone Corporation | Model generation device, text search device, model generation method, text search method, data structure, and program |
EP3602349A1 (en) | 2017-04-29 | 2020-02-05 | Google LLC | Generating query variants using a trained generative model |
WO2019167282A1 (ja) * | 2018-03-02 | 2019-09-06 | 富士通株式会社 | 応答処理プログラム、応答処理方法、応答処理装置および応答処理システム |
WO2019235103A1 (ja) * | 2018-06-07 | 2019-12-12 | 日本電信電話株式会社 | 質問生成装置、質問生成方法及びプログラム |
JP7087938B2 (ja) * | 2018-06-07 | 2022-06-21 | 日本電信電話株式会社 | 質問生成装置、質問生成方法及びプログラム |
JP7032650B2 (ja) * | 2018-06-28 | 2022-03-09 | 富士通株式会社 | 類似テキスト検索方法、類似テキスト検索装置および類似テキスト検索プログラム |
US11755659B2 (en) * | 2018-10-04 | 2023-09-12 | Resonac Corporation | Document search device, document search program, and document search method |
CN109460473B (zh) * | 2018-11-21 | 2021-11-02 | 中南大学 | 基于症状提取和特征表示的电子病历多标签分类方法 |
CN109977215B (zh) * | 2019-03-29 | 2021-06-18 | 百度在线网络技术(北京)有限公司 | 基于关联兴趣点的语句推荐方法和装置 |
WO2020240709A1 (ja) * | 2019-05-28 | 2020-12-03 | 日本電信電話株式会社 | 対話処理装置、学習装置、対話処理方法、学習方法及びプログラム |
JP7388926B2 (ja) * | 2020-01-09 | 2023-11-29 | 株式会社日立製作所 | 対話システム |
WO2021146388A1 (en) * | 2020-01-14 | 2021-07-22 | RELX Inc. | Systems and methods for providing answers to a query |
KR102418953B1 (ko) * | 2020-05-11 | 2022-07-11 | 네이버 주식회사 | 쇼핑 검색 결과 확장 방법 및 시스템 |
CN111930918B (zh) * | 2020-09-29 | 2020-12-18 | 湖南大学 | 一种跨模态的双边个性化人机社交对话生成方法及系统 |
US12079185B2 (en) * | 2020-10-29 | 2024-09-03 | Yext, Inc. | Vector-based search result generation |
US20220284174A1 (en) * | 2021-03-03 | 2022-09-08 | Oracle International Corporation | Correcting content generated by deep learning |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3472194B2 (ja) | 1999-05-25 | 2003-12-02 | 日本電信電話株式会社 | 自動応答方法及びその装置並びにそのプログラムを記録した媒体 |
US7287025B2 (en) * | 2003-02-12 | 2007-10-23 | Microsoft Corporation | Systems and methods for query expansion |
JP4650072B2 (ja) * | 2005-04-12 | 2011-03-16 | 富士ゼロックス株式会社 | 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム |
JP2007304793A (ja) | 2006-05-10 | 2007-11-22 | Nippon Telegr & Teleph Corp <Ntt> | 文書検索装置 |
US7856350B2 (en) * | 2006-08-11 | 2010-12-21 | Microsoft Corporation | Reranking QA answers using language modeling |
US8447589B2 (en) * | 2006-12-22 | 2013-05-21 | Nec Corporation | Text paraphrasing method and program, conversion rule computing method and program, and text paraphrasing system |
US8275803B2 (en) * | 2008-05-14 | 2012-09-25 | International Business Machines Corporation | System and method for providing answers to questions |
JP5436152B2 (ja) | 2009-11-10 | 2014-03-05 | 日本電信電話株式会社 | 質問応答装置、質問応答方法、質問応答プログラム |
US20130060769A1 (en) * | 2011-09-01 | 2013-03-07 | Oren Pereg | System and method for identifying social media interactions |
JP5903370B2 (ja) | 2012-11-14 | 2016-04-13 | 日本電信電話株式会社 | 情報検索装置、情報検索方法、及びプログラム |
US9535898B2 (en) * | 2013-02-06 | 2017-01-03 | International Business Machines Corporation | Natural language question expansion and extraction |
JP6757115B2 (ja) | 2014-09-24 | 2020-09-16 | 株式会社オウケイウェイヴ | 回答検索システム |
US9690851B2 (en) | 2014-11-20 | 2017-06-27 | Oracle International Corporation | Automatic generation of contextual search string synonyms |
US10509814B2 (en) * | 2014-12-19 | 2019-12-17 | Universidad Nacional De Educacion A Distancia (Uned) | System and method for the indexing and retrieval of semantically annotated data using an ontology-based information retrieval model |
US11182435B2 (en) * | 2016-11-25 | 2021-11-23 | Nippon Telegraph And Telephone Corporation | Model generation device, text search device, model generation method, text search method, data structure, and program |
-
2017
- 2017-11-20 US US16/461,201 patent/US11182435B2/en active Active
- 2017-11-20 WO PCT/JP2017/041630 patent/WO2018097091A1/ja active Application Filing
- 2017-11-20 JP JP2018552565A patent/JP6813591B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
US20190278812A1 (en) | 2019-09-12 |
JPWO2018097091A1 (ja) | 2019-10-17 |
US11182435B2 (en) | 2021-11-23 |
WO2018097091A1 (ja) | 2018-05-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6813591B2 (ja) | モデル作成装置、テキスト検索装置、モデル作成方法、テキスト検索方法、及びプログラム | |
CN108304375B (zh) | 一种信息识别方法及其设备、存储介质、终端 | |
CN108681574B (zh) | 一种基于文本摘要的非事实类问答答案选择方法及系统 | |
KR101353521B1 (ko) | 키워드 추출 방법 및 시스템, 그리고 대화 보조 장치 | |
EP1927927A2 (en) | Speech recognition training method for audio and video file indexing on a search engine | |
CN101952824A (zh) | 计算机执行的对数据库中的文献进行索引和检索的方法以及信息检索系统 | |
CN102955772B (zh) | 一种基于语义的相似度计算方法和装置 | |
WO2003010754A1 (fr) | Systeme de recherche a entree vocale | |
CN110188174B (zh) | 一种基于专业词汇挖掘的专业领域faq智能问答方法 | |
CN109271524B (zh) | 知识库问答系统中的实体链接方法 | |
KR101988165B1 (ko) | 청각 장애 학생들을 위한 전문 자료 텍스트 분석 기반 음성인식 기술 정확도 향상 방법 및 시스템 | |
JP4466334B2 (ja) | 情報分類方法及び装置及びプログラム及びプログラムを格納した記憶媒体 | |
JP5718405B2 (ja) | 発話選択装置、方法、及びプログラム、対話装置及び方法 | |
KR101333485B1 (ko) | 온라인 사전을 이용한 개체명 사전 구축 방법 및 이를 실행하는 장치 | |
CN107818078B (zh) | 汉语自然语言对话的语义关联与匹配方法 | |
JP2021022292A (ja) | 情報処理装置、プログラム及び情報処理方法 | |
KR101069534B1 (ko) | 미등록어를 포함한 환경에서 오디오 및 비디오의 음성 데이터 검색 방법 및 장치 | |
Shrawankar et al. | Construction of news headline from detailed news article | |
Rofiq | Indonesian news extractive text summarization using latent semantic analysis | |
CN114154496A (zh) | 基于深度学习bert模型的煤监类案对比方法及装置 | |
Subhashini et al. | A framework for efficient information retrieval using NLP techniques | |
CN108763229B (zh) | 一种基于特征性句干提取的机器翻译方法及装置 | |
CN112732885A (zh) | 用于问答系统的答案扩展方法、装置及电子设备 | |
Grishman | Information extraction and speech recognition | |
Crestani | Vocal access to a newspaper archive: design issues and preliminary investigations |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190513 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200526 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200721 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20201215 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20201217 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6813591 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |