JP6495124B2 - 用語意味コード判定装置、用語意味コード判定モデル学習装置、方法、及びプログラム - Google Patents
用語意味コード判定装置、用語意味コード判定モデル学習装置、方法、及びプログラム Download PDFInfo
- Publication number
- JP6495124B2 JP6495124B2 JP2015137799A JP2015137799A JP6495124B2 JP 6495124 B2 JP6495124 B2 JP 6495124B2 JP 2015137799 A JP2015137799 A JP 2015137799A JP 2015137799 A JP2015137799 A JP 2015137799A JP 6495124 B2 JP6495124 B2 JP 6495124B2
- Authority
- JP
- Japan
- Prior art keywords
- term
- meaning
- context
- feature vector
- code
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
しかし、この方法では、用語例の選択の仕方に意味コードの推定精度が大きく影響される可能性がある。
具体的には、文脈意味確率計算部28は、文脈特徴ベクトル生成部26によって生成された文脈特徴ベクトルと、文脈特徴ベクトルから各意味コードに対する文脈意味確率を計算するための予め学習された文脈意味確率モデルとに基づいて、各意味コードに対する文脈意味確率を計算する。文脈意味確率モデルは、後述する確率モデル生成部32によって予め生成される。
ステップS100において、用語特徴ベクトル生成部322は、訓練データ集合データベース320に格納されている訓練データの集合のうち、意味コードと用語の文字列との組である訓練データの各々を取得する。
ステップS200において、文脈特徴ベクトル生成部328は、訓練データ集合データベース320に格納されている訓練データの集合のうち、意味コードと、用語の前後に記述される文字列との組である訓練データの各々を取得する。
率と、を組み合わせて用いることで意味コードの推定精度が向上することがわかる。
11 テキスト入力部
12 用語入力部
14 文脈入力部
16 訓練データ入力部
20 演算部
22 用語特徴ベクトル生成部
26 文脈特徴ベクトル生成部
24 用語意味確率計算部
28 文脈意味確率計算部
32 確率モデル生成部
30 意味コード判定部
40 出力部
100 用語意味コード判定装置
320 訓練データ集合データベース
322 用語特徴ベクトル生成部
324 用語意味確率モデル生成部
326 用語意味確率モデル記憶部
328 文脈特徴ベクトル生成部
330 文脈意味確率モデル生成部
332 文脈意味確率モデル記憶部
Claims (9)
- 入力されたテキスト中における用語に対して、意味コードを判定する用語意味コード判定装置であって、
前記用語の文字列から、用語特徴ベクトルを生成する用語特徴ベクトル生成部と、
前記用語特徴ベクトル生成部によって生成された前記用語特徴ベクトルに基づいて、各意味コードに対する適合度を表す用語意味確率を計算する用語意味確率計算部と、
前記用語の前後に記述されている文字列から、文脈特徴ベクトルを生成する文脈特徴ベクトル生成部と、
前記文脈特徴ベクトル生成部によって生成された前記文脈特徴ベクトルに基づいて、各意味コードに対する適合度を表す文脈意味確率を計算する文脈意味確率計算部と、
前記用語意味確率計算部によって計算された各意味コードに対する用語意味確率、及び前記文脈意味確率計算部によって計算された各意味コードに対する文脈意味確率に基づいて、前記用語の意味コードを判定する意味コード判定部と、
を含む用語意味コード判定装置。 - 前記用語意味確率計算部は、前記用語特徴ベクトル生成部によって生成された前記用語特徴ベクトルと、前記用語特徴ベクトルから各意味コードに対する用語意味確率を計算するための予め学習された用語意味確率モデルとに基づいて、各意味コードに対する用語意味確率を計算し、
前記文脈意味確率計算部は、前記文脈特徴ベクトル生成部によって生成された前記文脈特徴ベクトルと、前記文脈特徴ベクトルから各意味コードに対する文脈意味確率を計算するための予め学習された文脈意味確率モデルとに基づいて、各意味コードに対する文脈意味確率を計算する請求項1に記載の用語意味コード判定装置。 - 意味コードと、意味コードが予め付与された用語の文字列との複数組からなる第1の訓練データの各々から、用語特徴ベクトルを生成する用語特徴ベクトル生成部と、
前記用語特徴ベクトル生成部によって生成された、前記用語の前記用語特徴ベクトルと、該用語の文字列に付与された意味コードとに基づいて、前記用語特徴ベクトルから各意味コードに対する用語意味確率を計算するための用語意味確率モデルを学習する用語意味確率モデル生成部と、
意味コードと、意味コードが予め付与された用語の文脈を表す文字列との複数組からなる第2の訓練データの各々から、文脈特徴ベクトルを生成する文脈特徴ベクトル生成部と、
前記文脈特徴ベクトル生成部によって生成された、前記用語の前記文脈特徴ベクトルと、該用語の文脈を表す文字列に付与された意味コードとに基づいて、前記文脈特徴ベクトルから各意味コードに対する文脈意味確率を計算するための文脈意味確率モデルを学習する文脈意味確率モデル生成部と、を含む、
用語意味コード判定モデル学習装置。 - 前記意味コード判定部は、前記用語意味確率計算部によって計算された各意味コードに対する用語意味確率、及び前記文脈意味確率計算部によって計算された各意味コードに対する文脈意味確率に対して重み付けを行い、該重み付けの結果に基づいて、前記用語の意味コードを判定する、
請求項1又は請求項2に記載の用語意味コード判定装置。 - 前記第1の訓練データは、各用語に意味コードが予め付与された文書、意味コードを定義する辞書、及び意味コードを定義するのに用いられている用語と同義語及び類義語の少なくとも一方の関係が記載されている辞書の少なくとも1つに基づき作成されたものを含み、
前記第2の訓練データのうちの前記用語の文脈を表す文字列は、用語に意味コードが予め付与された文書から抽出された用語の前後に記述されている文字列、及び意味コードを定義する辞書から抽出された用語の定義文である文字列の少なくとも一方に基づき作成されたものを含む、
請求項3に記載の用語意味コード判定モデル学習装置。 - 前記用語特徴ベクトル生成部は、前記用語について、前記用語に含まれる文字、及び前記用語の文字列に含まれる部分文字列から、各部分文字列の有無又は個数と、各文字の文字種及び該文字の前又は後の文字との各組み合わせの有無又は個数と、を表す前記用語特徴ベクトルを生成する請求項1、請求項2、又は請求項4に記載の用語意味コード判定装置。
- 用語特徴ベクトル生成部、用語意味確率計算部、文脈特徴ベクトル生成部、文脈意味確率計算部、及び意味コード判定部を含み、入力されたテキスト中における用語に対して、意味コードを判定する用語意味コード判定装置における用語意味コード判定方法であって、
前記用語特徴ベクトル生成部が、前記用語の文字列から、用語特徴ベクトルを生成するステップと、
前記用語意味確率計算部が、前記用語特徴ベクトル生成部によって生成された前記用語特徴ベクトルに基づいて、各意味コードに対する適合度を表す用語意味確率を計算するステップと、
前記文脈特徴ベクトル生成部が、前記用語の前後に記述されている文字列から、文脈特徴ベクトルを生成するステップと、
前記文脈意味確率計算部が、前記文脈特徴ベクトル生成部によって生成された前記文脈特徴ベクトルに基づいて、各意味コードに対する適合度を表す文脈意味確率を計算するステップと、
前記意味コード判定部が、前記用語意味確率計算部によって計算された各意味コードに対する用語意味確率、及び前記文脈意味確率計算部によって計算された各意味コードに対する文脈意味確率に基づいて、前記用語の意味コードを判定するステップと、
を含む用語意味コード判定方法。 - 用語特徴ベクトル生成部、用語意味確率モデル生成部、文脈特徴ベクトル生成部、及び文脈意味確率モデル生成部を含む用語意味コード判定モデル学習装置における用語意味コード判定モデル学習方法であって、
前記用語特徴ベクトル生成部が、意味コードと、意味コードが予め付与された用語の文字列との複数組からなる第1の訓練データの各々から、用語特徴ベクトルを生成するステップと、
前記用語意味確率モデル生成部が、前記用語特徴ベクトル生成部によって生成された、前記用語の前記用語特徴ベクトルと、該用語の文字列に付与された意味コードとに基づいて、前記用語特徴ベクトルから各意味コードに対する用語意味確率を計算するための用語意味確率モデルを学習するステップと、
前記文脈特徴ベクトル生成部が、意味コードと、意味コードが予め付与された用語の文脈を表す文字列との複数組からなる第2の訓練データの各々から、文脈特徴ベクトルを生成するステップと、
前記文脈意味確率モデル生成部が、前記文脈特徴ベクトル生成部によって生成された、前記用語の前記文脈特徴ベクトルと、該用語の文脈を表す文字列に付与された意味コードとに基づいて、前記文脈特徴ベクトルから各意味コードに対する文脈意味確率を計算するための文脈意味確率モデルを学習するステップと、を含む、
用語意味コード判定モデル学習方法。 - コンピュータを、請求項1、請求項2、請求項4、及び請求項6の何れか1項に記載の用語意味コード判定装置を構成する各部として機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015137799A JP6495124B2 (ja) | 2015-07-09 | 2015-07-09 | 用語意味コード判定装置、用語意味コード判定モデル学習装置、方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015137799A JP6495124B2 (ja) | 2015-07-09 | 2015-07-09 | 用語意味コード判定装置、用語意味コード判定モデル学習装置、方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017021523A JP2017021523A (ja) | 2017-01-26 |
JP6495124B2 true JP6495124B2 (ja) | 2019-04-03 |
Family
ID=57889599
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015137799A Active JP6495124B2 (ja) | 2015-07-09 | 2015-07-09 | 用語意味コード判定装置、用語意味コード判定モデル学習装置、方法、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6495124B2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7180132B2 (ja) | 2018-06-12 | 2022-11-30 | 富士通株式会社 | 処理プログラム、処理方法および情報処理装置 |
KR102204740B1 (ko) * | 2019-02-28 | 2021-01-19 | 네이버 주식회사 | 대화 시스템에서의 의도 불분명 질의를 처리하는 방법 및 시스템 |
JP7055764B2 (ja) * | 2019-03-13 | 2022-04-18 | 株式会社東芝 | 対話制御システム、対話制御方法及びプログラム |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006107353A (ja) * | 2004-10-08 | 2006-04-20 | Sony Corp | 情報処理装置および方法、記録媒体、並びにプログラム |
JP4576977B2 (ja) * | 2004-10-28 | 2010-11-10 | ソニー株式会社 | 情報処理装置および方法、並びにプログラム |
US7681147B2 (en) * | 2005-12-13 | 2010-03-16 | Yahoo! Inc. | System for determining probable meanings of inputted words |
JP4931114B2 (ja) * | 2006-06-29 | 2012-05-16 | 独立行政法人情報通信研究機構 | データ表示装置、データ表示方法及びデータ表示プログラム |
JP2008021139A (ja) * | 2006-07-13 | 2008-01-31 | National Institute Of Information & Communication Technology | 意味タグ付け用モデル構築装置、意味タグ付け装置及びコンピュータプログラム |
JP5117744B2 (ja) * | 2007-03-13 | 2013-01-16 | 日本電信電話株式会社 | 単語意味タグ付与装置および方法、プログラム並びに記録媒体 |
WO2013132614A1 (ja) * | 2012-03-07 | 2013-09-12 | 三菱電機株式会社 | 語義推定装置、方法及びプログラム |
WO2015029241A1 (en) * | 2013-08-27 | 2015-03-05 | Nec Corporation | Word translation acquisition method |
-
2015
- 2015-07-09 JP JP2015137799A patent/JP6495124B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2017021523A (ja) | 2017-01-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10713571B2 (en) | Displaying quality of question being asked a question answering system | |
CN110427618B (zh) | 对抗样本生成方法、介质、装置和计算设备 | |
JP5356197B2 (ja) | 単語意味関係抽出装置 | |
US9916304B2 (en) | Method of creating translation corpus | |
US20180181544A1 (en) | Systems for Automatically Extracting Job Skills from an Electronic Document | |
JP5544602B2 (ja) | 単語意味関係抽出装置及び単語意味関係抽出方法 | |
CN110162771B (zh) | 事件触发词的识别方法、装置、电子设备 | |
US20130036076A1 (en) | Method for keyword extraction | |
Layton et al. | Recentred local profiles for authorship attribution | |
Qian et al. | Tri-training for authorship attribution with limited training data | |
US8442771B2 (en) | Methods and apparatus for term normalization | |
JP2019185551A (ja) | アノテーション付テキストデータの拡張方法、アノテーション付テキストデータの拡張プログラム、アノテーション付テキストデータの拡張装置、及び、テキスト分類モデルの訓練方法 | |
US11507746B2 (en) | Method and apparatus for generating context information | |
US11669740B2 (en) | Graph-based labeling rule augmentation for weakly supervised training of machine-learning-based named entity recognition | |
CN107357765A (zh) | Word文档碎片化方法及装置 | |
JP6495124B2 (ja) | 用語意味コード判定装置、用語意味コード判定モデル学習装置、方法、及びプログラム | |
CN116661855A (zh) | 一种代码注释生成方法及装置 | |
Cocks | A word-based approach for diacritic restoration in Māori | |
CN113553853B (zh) | 命名实体识别方法、装置、计算机设备及存储介质 | |
Liu et al. | Integrated cTAKES for Concept Mention Detection and Normalization. | |
CN112559711A (zh) | 一种同义文本提示方法、装置及电子设备 | |
Hao et al. | SCESS: a WFSA-based automated simplified chinese essay scoring system with incremental latent semantic analysis | |
JP6368633B2 (ja) | 用語意味学習装置、用語意味判定装置、方法、及びプログラム | |
CN110866393B (zh) | 基于领域知识库的简历信息抽取方法及系统 | |
JP4567025B2 (ja) | テキスト分類装置、テキスト分類方法及びテキスト分類プログラム並びにそのプログラムを記録した記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170621 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20180525 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180605 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180806 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190205 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190306 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6495124 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |