JP2017021523A - 用語意味コード判定装置、方法、及びプログラム - Google Patents
用語意味コード判定装置、方法、及びプログラム Download PDFInfo
- Publication number
- JP2017021523A JP2017021523A JP2015137799A JP2015137799A JP2017021523A JP 2017021523 A JP2017021523 A JP 2017021523A JP 2015137799 A JP2015137799 A JP 2015137799A JP 2015137799 A JP2015137799 A JP 2015137799A JP 2017021523 A JP2017021523 A JP 2017021523A
- Authority
- JP
- Japan
- Prior art keywords
- term
- meaning
- feature vector
- context
- code
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】用語特徴ベクトル生成部22が、用語の文字列から、用語特徴ベクトルを生成する。用語意味確率計算部24が、生成された用語特徴ベクトルに基づいて、各意味コードに対する適合度を表す用語意味確率を計算する。文脈特徴ベクトル生成部26が、用語の前後に記述されている文字列から、文脈特徴ベクトルを生成する。文脈意味確率計算部28が、生成された文脈特徴ベクトルに基づいて、各意味コードに対する適合度を表す文脈意味確率を計算する。意味コード判定部30が、用語意味確率計算部24によって計算された各意味コードに対する用語意味確率、及び文脈意味確率計算部28によって計算された各意味コードに対する文脈意味確率に基づいて、用語の意味コードを判定する。
【選択図】図1
Description
しかし、この方法では、用語例の選択の仕方に意味コードの推定精度が大きく影響される可能性がある。
具体的には、文脈意味確率計算部28は、文脈特徴ベクトル生成部26によって生成された文脈特徴ベクトルと、文脈特徴ベクトルから各意味コードに対する文脈意味確率を計算するための予め学習された文脈意味確率モデルとに基づいて、各意味コードに対する文脈意味確率を計算する。文脈意味確率モデルは、後述する確率モデル生成部32によって予め生成される。
ステップS100において、用語特徴ベクトル生成部322は、訓練データ集合データベース320に格納されている訓練データの集合のうち、意味コードと用語の文字列との組である訓練データの各々を取得する。
ステップS200において、文脈特徴ベクトル生成部328は、訓練データ集合データベース320に格納されている訓練データの集合のうち、意味コードと、用語の前後に記述される文字列との組である訓練データの各々を取得する。
率と、を組み合わせて用いることで意味コードの推定精度が向上することがわかる。
11 テキスト入力部
12 用語入力部
14 文脈入力部
16 訓練データ入力部
20 演算部
22 用語特徴ベクトル生成部
26 文脈特徴ベクトル生成部
24 用語意味確率計算部
28 文脈意味確率計算部
32 確率モデル生成部
30 意味コード判定部
40 出力部
100 用語意味コード判定装置
320 訓練データ集合データベース
322 用語特徴ベクトル生成部
324 用語意味確率モデル生成部
326 用語意味確率モデル記憶部
328 文脈特徴ベクトル生成部
330 文脈意味確率モデル生成部
332 文脈意味確率モデル記憶部
Claims (7)
- 入力されたテキスト中における用語に対して、意味コードを判定する用語意味コード判定装置であって、
前記用語の文字列から、用語特徴ベクトルを生成する用語特徴ベクトル生成部と、
前記用語特徴ベクトル生成部によって生成された前記用語特徴ベクトルに基づいて、各意味コードに対する適合度を表す用語意味確率を計算する用語意味確率計算部と、
前記用語の前後に記述されている文字列から、文脈特徴ベクトルを生成する文脈特徴ベクトル生成部と、
前記文脈特徴ベクトル生成部によって生成された前記文脈特徴ベクトルに基づいて、各意味コードに対する適合度を表す文脈意味確率を計算する文脈意味確率計算部と、
前記用語意味確率計算部によって計算された各意味コードに対する用語意味確率、及び前記文脈意味確率計算部によって計算された各意味コードに対する文脈意味確率に基づいて、前記用語の意味コードを判定する意味コード判定部と、
を含む用語意味コード判定装置。 - 前記用語意味確率計算部は、前記用語特徴ベクトル生成部によって生成された前記用語特徴ベクトルと、前記用語特徴ベクトルから各意味コードに対する用語意味確率を計算するための予め学習された用語意味確率モデルとに基づいて、各意味コードに対する用語意味確率を計算し、
前記文脈意味確率計算部は、前記文脈特徴ベクトル生成部によって生成された前記文脈特徴ベクトルと、前記文脈特徴ベクトルから各意味コードに対する文脈意味確率を計算するための予め学習された文脈意味確率モデルとに基づいて、各意味コードに対する文脈意味確率を計算する請求項1記載の用語意味コード判定装置。 - 意味コードが予め付与された複数の用語の文字列の各々について生成された前記用語特徴ベクトルと、前記複数の用語の文字列の各々に付与された意味コードとに基づいて、前記用語意味確率モデルを学習する用語意味確率モデル生成部と、
意味コードが予め付与された、用語の前後に記述される文字列の各々について、前記用語の前後に記述される文字列から生成された前記文脈特徴ベクトルと、前記用語の前後に記述される文字列の各々に付与された意味コードとに基づいて、前記文脈意味確率モデルを学習する文脈意味確率モデル生成部とを更に含む請求項2記載の用語意味コード判定装置。 - 前記用語特徴ベクトル生成部は、前記用語について、前記用語に含まれる文字、及び前記用語の文字列に含まれる部分文字列から、各部分文字列の有無又は個数と、文字の種類及び該文字の前又は後の文字との各組み合わせの有無又は個数と、を表す前記用語特徴ベクトルを生成する請求項1〜請求項3の何れか1項に記載の用語意味コード判定装置。
- 用語特徴ベクトル生成部、用語意味確率計算部、文脈特徴ベクトル生成部、文脈意味確率計算部、及び意味コード判定部を含み、入力されたテキスト中における用語に対して、意味コードを判定する用語意味コード判定装置における用語意味コード判定方法であって、
前記用語特徴ベクトル生成部が、前記用語の文字列から、用語特徴ベクトルを生成するステップと、
前記用語意味確率計算部が、前記用語特徴ベクトル生成部によって生成された前記用語特徴ベクトルに基づいて、各意味コードに対する適合度を表す用語意味確率を計算するステップと、
前記文脈特徴ベクトル生成部が、前記用語の前後に記述されている文字列から、文脈特徴ベクトルを生成するステップと、
前記文脈意味確率計算部が、前記文脈特徴ベクトル生成部によって生成された前記文脈特徴ベクトルに基づいて、各意味コードに対する適合度を表す文脈意味確率を計算するステップと、
前記意味コード判定部が、前記用語意味確率計算部によって計算された各意味コードに対する用語意味確率、及び前記文脈意味確率計算部によって計算された各意味コードに対する文脈意味確率に基づいて、前記用語の意味コードを判定するステップと、
を含む用語意味コード判定方法。 - 前記用語特徴ベクトル生成部が用語特徴ベクトルを生成するステップは、前記用語について、前記用語に含まれる文字、及び前記用語の文字列に含まれる部分文字列から、各部分文字列の有無又は個数と、文字の種類及び該文字の前又は後の文字との各組み合わせの有無又は個数と、を表す前記用語特徴ベクトルを生成する請求項5に記載の用語意味コード判定方法。
- コンピュータを、請求項1〜請求項4のいずれか1項に記載の用語意味コード判定装置を構成する各部として機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015137799A JP6495124B2 (ja) | 2015-07-09 | 2015-07-09 | 用語意味コード判定装置、用語意味コード判定モデル学習装置、方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015137799A JP6495124B2 (ja) | 2015-07-09 | 2015-07-09 | 用語意味コード判定装置、用語意味コード判定モデル学習装置、方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017021523A true JP2017021523A (ja) | 2017-01-26 |
JP6495124B2 JP6495124B2 (ja) | 2019-04-03 |
Family
ID=57889599
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015137799A Active JP6495124B2 (ja) | 2015-07-09 | 2015-07-09 | 用語意味コード判定装置、用語意味コード判定モデル学習装置、方法、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6495124B2 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20200106126A (ko) * | 2019-02-28 | 2020-09-11 | 네이버 주식회사 | 대화 시스템에서의 의도 불분명 질의를 처리하는 방법 및 시스템 |
JP2020149369A (ja) * | 2019-03-13 | 2020-09-17 | 株式会社東芝 | 対話制御システム、対話制御方法及びプログラム |
US11797581B2 (en) | 2018-06-12 | 2023-10-24 | Fujitsu Limited | Text processing method and text processing apparatus for generating statistical model |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006107353A (ja) * | 2004-10-08 | 2006-04-20 | Sony Corp | 情報処理装置および方法、記録媒体、並びにプログラム |
JP2006127077A (ja) * | 2004-10-28 | 2006-05-18 | Sony Corp | 情報処理装置および方法、記録媒体、並びにプログラム |
US20070136689A1 (en) * | 2005-12-13 | 2007-06-14 | David Richardson-Bunbury | System for determining probable meanings of inputted words |
JP2008009671A (ja) * | 2006-06-29 | 2008-01-17 | National Institute Of Information & Communication Technology | データ表示装置、データ表示方法及びデータ表示プログラム |
JP2008021139A (ja) * | 2006-07-13 | 2008-01-31 | National Institute Of Information & Communication Technology | 意味タグ付け用モデル構築装置、意味タグ付け装置及びコンピュータプログラム |
JP2008225846A (ja) * | 2007-03-13 | 2008-09-25 | Nippon Telegr & Teleph Corp <Ntt> | 単語意味タグ付与装置および方法、プログラム並びに記録媒体 |
WO2013132614A1 (ja) * | 2012-03-07 | 2013-09-12 | 三菱電機株式会社 | 語義推定装置、方法及びプログラム |
WO2015029241A1 (en) * | 2013-08-27 | 2015-03-05 | Nec Corporation | Word translation acquisition method |
-
2015
- 2015-07-09 JP JP2015137799A patent/JP6495124B2/ja active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006107353A (ja) * | 2004-10-08 | 2006-04-20 | Sony Corp | 情報処理装置および方法、記録媒体、並びにプログラム |
JP2006127077A (ja) * | 2004-10-28 | 2006-05-18 | Sony Corp | 情報処理装置および方法、記録媒体、並びにプログラム |
US20070136689A1 (en) * | 2005-12-13 | 2007-06-14 | David Richardson-Bunbury | System for determining probable meanings of inputted words |
JP2008009671A (ja) * | 2006-06-29 | 2008-01-17 | National Institute Of Information & Communication Technology | データ表示装置、データ表示方法及びデータ表示プログラム |
JP2008021139A (ja) * | 2006-07-13 | 2008-01-31 | National Institute Of Information & Communication Technology | 意味タグ付け用モデル構築装置、意味タグ付け装置及びコンピュータプログラム |
JP2008225846A (ja) * | 2007-03-13 | 2008-09-25 | Nippon Telegr & Teleph Corp <Ntt> | 単語意味タグ付与装置および方法、プログラム並びに記録媒体 |
WO2013132614A1 (ja) * | 2012-03-07 | 2013-09-12 | 三菱電機株式会社 | 語義推定装置、方法及びプログラム |
US20150006155A1 (en) * | 2012-03-07 | 2015-01-01 | Mitsubishi Electric Corporation | Device, method, and program for word sense estimation |
WO2015029241A1 (en) * | 2013-08-27 | 2015-03-05 | Nec Corporation | Word translation acquisition method |
Non-Patent Citations (3)
Title |
---|
九岡 佑介、外2名: "複数の特徴ベクトルのクラスタリングに基づく単語の意味の弁別", 言語処理学会第14回年次大会発表論文集, JPN6018020469, 17 March 2008 (2008-03-17), JP, pages 572 - 575, ISSN: 0003809262 * |
持橋 大地、外1名: "意味の確率的表現", 情報処理学会研究報告, vol. 第2002巻,第4号, JPN6010000736, 22 January 2002 (2002-01-22), JP, pages 77 - 84, ISSN: 0003970276 * |
持橋 大地、外1名: "連想としての意味", 情報処理学会研究報告, vol. 第99巻,第95号, JPN6019003099, 26 November 1999 (1999-11-26), JP, pages 155 - 162, ISSN: 0003970277 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11797581B2 (en) | 2018-06-12 | 2023-10-24 | Fujitsu Limited | Text processing method and text processing apparatus for generating statistical model |
KR20200106126A (ko) * | 2019-02-28 | 2020-09-11 | 네이버 주식회사 | 대화 시스템에서의 의도 불분명 질의를 처리하는 방법 및 시스템 |
KR102204740B1 (ko) * | 2019-02-28 | 2021-01-19 | 네이버 주식회사 | 대화 시스템에서의 의도 불분명 질의를 처리하는 방법 및 시스템 |
US11403345B2 (en) | 2019-02-28 | 2022-08-02 | Naver Corporation | Method and system for processing unclear intent query in conversation system |
JP2020149369A (ja) * | 2019-03-13 | 2020-09-17 | 株式会社東芝 | 対話制御システム、対話制御方法及びプログラム |
CN111694933A (zh) * | 2019-03-13 | 2020-09-22 | 株式会社东芝 | 对话控制系统、对话控制方法以及存储介质 |
JP7055764B2 (ja) | 2019-03-13 | 2022-04-18 | 株式会社東芝 | 対話制御システム、対話制御方法及びプログラム |
US11783129B2 (en) | 2019-03-13 | 2023-10-10 | Kabushiki Kaisha Toshiba | Interactive control system, interactive control method, and computer program product |
Also Published As
Publication number | Publication date |
---|---|
JP6495124B2 (ja) | 2019-04-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10713571B2 (en) | Displaying quality of question being asked a question answering system | |
CN110427618B (zh) | 对抗样本生成方法、介质、装置和计算设备 | |
US9916304B2 (en) | Method of creating translation corpus | |
JP5356197B2 (ja) | 単語意味関係抽出装置 | |
US8364470B2 (en) | Text analysis method for finding acronyms | |
Sahu et al. | Feature engineering and ensemble-based approach for improving automatic short-answer grading performance | |
CN110162771B (zh) | 事件触发词的识别方法、装置、电子设备 | |
US20180181544A1 (en) | Systems for Automatically Extracting Job Skills from an Electronic Document | |
Qian et al. | Tri-training for authorship attribution with limited training data | |
US8442771B2 (en) | Methods and apparatus for term normalization | |
US9262400B2 (en) | Non-transitory computer readable medium and information processing apparatus and method for classifying multilingual documents | |
JP2019185551A (ja) | アノテーション付テキストデータの拡張方法、アノテーション付テキストデータの拡張プログラム、アノテーション付テキストデータの拡張装置、及び、テキスト分類モデルの訓練方法 | |
US11669740B2 (en) | Graph-based labeling rule augmentation for weakly supervised training of machine-learning-based named entity recognition | |
US11507746B2 (en) | Method and apparatus for generating context information | |
CN107357765A (zh) | Word文档碎片化方法及装置 | |
Zavala et al. | A Hybrid Bi-LSTM-CRF model for Knowledge Recognition from eHealth documents. | |
CN116661855A (zh) | 一种代码注释生成方法及装置 | |
JP6495124B2 (ja) | 用語意味コード判定装置、用語意味コード判定モデル学習装置、方法、及びプログラム | |
CN113553853B (zh) | 命名实体识别方法、装置、计算机设备及存储介质 | |
Liu et al. | Integrated cTAKES for Concept Mention Detection and Normalization. | |
CN112559711A (zh) | 一种同义文本提示方法、装置及电子设备 | |
JP6368633B2 (ja) | 用語意味学習装置、用語意味判定装置、方法、及びプログラム | |
Trye et al. | A hybrid architecture for labelling bilingual māori-english tweets | |
CN110866393B (zh) | 基于领域知识库的简历信息抽取方法及系统 | |
Shekhar et al. | Computational linguistic retrieval framework using negative bootstrapping for retrieving transliteration variants |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170621 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20180525 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180605 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180806 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190205 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190306 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6495124 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |