JP7147439B2 - 言語処理方法、言語処理プログラム及び言語処理装置 - Google Patents
言語処理方法、言語処理プログラム及び言語処理装置 Download PDFInfo
- Publication number
- JP7147439B2 JP7147439B2 JP2018186005A JP2018186005A JP7147439B2 JP 7147439 B2 JP7147439 B2 JP 7147439B2 JP 2018186005 A JP2018186005 A JP 2018186005A JP 2018186005 A JP2018186005 A JP 2018186005A JP 7147439 B2 JP7147439 B2 JP 7147439B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- degree
- correspondence
- text data
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
ここで、<axi,byj>は、単語ベクトルデータベース110における単語axiの単語ベクトルと、単語byjの単語ベクトルとの内積を示す。
尚、uxは、テキストデータ10に含まれるx番目のユニット(文脈)を示し、uyは、テキストデータ20に含まれるy番目のユニットを示している。また、P(ux→uy)は、ユニットuxとユニットuyとの対応付けやすさを示す文脈対応度を示す。この文脈対応度は、単語対応付け部123によって取得される対応付け情報によって変化する。
=P(axi→byj)/Σ_kP(axi→byk) 式(3)
また、式(2)の右辺第2項は、以下の式(4)によって求められる。尚、式(4)のP(axi→byj)は、単語対応付け部123による対応付け情報において、対応付けられた単語同士の単語対応度とする。
=Σ_iP(axi→byj)/Σ_iΣ_zP(axi→bzl) 式(4)
このように、本実施形態の単語対応度情報は、式(3)と式(4)の積で示される式(2)によって更新される。
Q=Σ_xΣ_ylogP(ux→uy) 式(5)
ステップS404において、終了条件を満たしていないと判定された場合、対応付け処理部120は、ステップS402へ戻る。
=P(昨日→昨日)/{P(昨日→昨日)+P(昨日→本を)+P(昨日→買った)}}
=1.0/(1.0+0+0)=1.0
となる。また、ユニットua1がユニットub2に対応付く場合に、ユニットua1の単語「昨日」とユニットub2の単語「彼は」との単語対応度は、以下のようになる。
=P(昨日→彼は)/{P(昨日→彼は)+P(昨日→小説を)+P(昨日→書く)}
=0.3/(0.3+0+0)=1.0
図10は、単語対応度情報の更新を説明する第二の図である。図10では、式(4)によって得られた結果を示している。図10では、縦軸方向に、テキストデータ10に含まれるユニットを記載し、横軸方向にテキストデータ20に含まれるユニットを記載している。
P(ua1→ub1)
={P(昨日→昨日)+P(買った→買った)}}/{P(昨日→昨日)+P(小説を→小説を)+P(買った→買った)}
=(1.0+1.0)/(1.0+1.0+1.0)
=2.0/3.0=0.7(0.66・・を四捨五入)
となる。同様に、ユニットua1とユニットub2との文脈対応度は、
P(ua1→ub2)
=P((小説を→小説を)/{P(昨日→昨日)+P(小説を→小説を)+P(買った→買った)
=1.0/(1.0+1.0+1.0)=1.0/3.0=0.3(0.33を四捨五入)
となる。
100 言語処理装置
110 単語ベクトルデータベース
120 対応付け処理部
121 入力受付部
122 単語対応度算出部
123 単語対応付け部
124 対応付け履歴保持部
125 単語対応度更新部
126 終了判定部
128 対応付け履歴情報
130 出力部
Claims (6)
- コンピュータによる言語処理方法であって、前記コンピュータが、
第一のテキストデータに含まれる第一の単語群と、第二のテキストデータに含まれる第二の単語群と、で取り得る全ての単語の組み合わせについて、単語同士の対応付きやすさの度合いを示す値を算出し、
前記対応付きやすさの度合いを示す値に基づき、第一の単語と第二の単語との対応付けを行い、
前記対応付けの結果と、前記単語同士の対応付きやすさの度合いを示す値と、を用いて、前記第一の単語を含む第一のテキストデータの単語群と前記第二の単語を含む第二のテキストデータの単語群とについて、単語群同士の対応付きやすさの度合いを示す値を算出し、前記単語群同士の対応付きやすさの度合いを示す値を用いて、前記単語同士の対応付きやすさの度合いを示す値を更新する、言語処理方法。 - 前記対応付けを行った結果が、終了条件を満たす場合に、前記対応付けを行った結果を出力する、請求項1記載の言語処理方法。
- 前記終了条件は、
更新された前記単語同士の対応付きやすさの度合いを示す値に基づき、前記第一の単語と前記第二の単語との対応付けを行った結果が更新前と一致することである、請求項2記載の言語処理方法。 - 前記単語群は、
複数の単語を含む文脈を示すテキストデータ、1つの文、複数の文の集合の何れかである、請求項1乃至3の何れか一項に記載の言語処理方法。 - 第一のテキストデータに含まれる第一の単語群と、第二のテキストデータに含まれる第二の単語群と、で取り得る全ての単語の組み合わせについて、単語同士の対応付きやすさの度合いを示す値を算出する処理と、
前記対応付きやすさの度合いを示す値に基づき、第一の単語と第二の単語との対応付けを行う処理と、
前記対応付けの結果と、前記単語同士の対応付きやすさの度合いを示す値と、を用いて、前記第一の単語を含む第一のテキストデータの単語群と前記第二の単語を含む第二のテキストデータの単語群とについて、単語群同士の対応付きやすさの度合いを示す値を算出し、前記単語群同士の対応付きやすさの度合いを示す値を用いて、前記単語同士の対応付きやすさの度合いを示す値を更新する処理と、をコンピュータに実行させる、言語処理プログラム。 - 第一のテキストデータに含まれる第一の単語群と、第二のテキストデータに含まれる第二の単語群と、で取り得る全ての単語の組み合わせについて、単語同士の対応付きやすさの度合いを示す値を算出する算出部と、
前記対応付きやすさの度合いを示す値に基づき、第一の単語と第二の単語との対応付けを行う対応付け部と、
前記対応付けの結果と、前記単語同士の対応付きやすさの度合いを示す値と、を用いて、前記第一の単語を含む第一のテキストデータの単語群と前記第二の単語を含む第二のテキストデータの単語群とについて、単語群同士の対応付きやすさの度合いを示す値を算出し、前記単語群同士の対応付きやすさの度合いを示す値を用いて、前記単語同士の対応付きやすさの度合いを示す値を更新する更新部と、を有する言語処理装置。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018186005A JP7147439B2 (ja) | 2018-09-28 | 2018-09-28 | 言語処理方法、言語処理プログラム及び言語処理装置 |
PCT/JP2019/035124 WO2020066545A1 (en) | 2018-09-28 | 2019-09-06 | Method of processing language, recording medium, system for processing language, and language processing apparatus |
US17/262,071 US11928431B2 (en) | 2018-09-28 | 2019-09-06 | Method of processing language, recording medium, system for processing language, and language processing apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018186005A JP7147439B2 (ja) | 2018-09-28 | 2018-09-28 | 言語処理方法、言語処理プログラム及び言語処理装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020057105A JP2020057105A (ja) | 2020-04-09 |
JP7147439B2 true JP7147439B2 (ja) | 2022-10-05 |
Family
ID=68000012
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018186005A Active JP7147439B2 (ja) | 2018-09-28 | 2018-09-28 | 言語処理方法、言語処理プログラム及び言語処理装置 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11928431B2 (ja) |
JP (1) | JP7147439B2 (ja) |
WO (1) | WO2020066545A1 (ja) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005275685A (ja) | 2004-03-24 | 2005-10-06 | Ntt Data Corp | 文書情報序列化装置、文書情報序列化方法、プログラムおよび記録媒体 |
JP2006107353A (ja) | 2004-10-08 | 2006-04-20 | Sony Corp | 情報処理装置および方法、記録媒体、並びにプログラム |
WO2008023470A1 (fr) | 2006-08-21 | 2008-02-28 | Kyoto University | Procédé de recherche de phrase, moteur de recherche de phrase, programme informatique, support d'enregistrement et stockage de document |
JP2011118526A (ja) | 2009-12-01 | 2011-06-16 | Hitachi Ltd | 単語意味関係抽出装置 |
JP2011175574A (ja) | 2010-02-25 | 2011-09-08 | Nippon Hoso Kyokai <Nhk> | 文書平易化装置および平易化規則テーブル作成装置、ならびにプログラム |
JP2017162190A (ja) | 2016-03-09 | 2017-09-14 | 富士通株式会社 | 類似文書検索プログラム、類似文書検索装置、及び類似文書検索方法 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7191115B2 (en) * | 2001-06-20 | 2007-03-13 | Microsoft Corporation | Statistical method and apparatus for learning translation relationships among words |
JP4361299B2 (ja) | 2003-03-20 | 2009-11-11 | 株式会社リコー | 評価表現抽出装置、プログラム、及び記憶媒体 |
JP3765798B2 (ja) * | 2003-05-27 | 2006-04-12 | 沖電気工業株式会社 | 文書対応関係検査装置、翻訳処理装置、文書対応関係検査方法、翻訳処理方法、および文書対応関係検査プログラム |
WO2005017698A2 (en) | 2003-08-11 | 2005-02-24 | Educational Testing Service | Cooccurrence and constructions |
JP5286384B2 (ja) | 2011-04-26 | 2013-09-11 | 三菱電機インフォメーションシステムズ株式会社 | マッチングシステム |
US10885089B2 (en) * | 2015-08-21 | 2021-01-05 | Cortical.Io Ag | Methods and systems for identifying a level of similarity between a filtering criterion and a data item within a set of streamed documents |
WO2016151986A1 (ja) | 2015-03-23 | 2016-09-29 | 日本電気株式会社 | 電力マッチング装置、電力マッチング方法および電力マッチングプログラムが格納された非一時的なコンピュータ可読媒体 |
US10380257B2 (en) * | 2015-09-28 | 2019-08-13 | International Business Machines Corporation | Generating answers from concept-based representation of a topic oriented pipeline |
US10489712B2 (en) * | 2016-02-26 | 2019-11-26 | Oath Inc. | Quality-based scoring and inhibiting of user-generated content |
US10572221B2 (en) * | 2016-10-20 | 2020-02-25 | Cortical.Io Ag | Methods and systems for identifying a level of similarity between a plurality of data representations |
JP6913893B2 (ja) | 2017-04-26 | 2021-08-04 | パナソニックIpマネジメント株式会社 | 受光量計測システム |
-
2018
- 2018-09-28 JP JP2018186005A patent/JP7147439B2/ja active Active
-
2019
- 2019-09-06 WO PCT/JP2019/035124 patent/WO2020066545A1/en active Application Filing
- 2019-09-06 US US17/262,071 patent/US11928431B2/en active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005275685A (ja) | 2004-03-24 | 2005-10-06 | Ntt Data Corp | 文書情報序列化装置、文書情報序列化方法、プログラムおよび記録媒体 |
JP2006107353A (ja) | 2004-10-08 | 2006-04-20 | Sony Corp | 情報処理装置および方法、記録媒体、並びにプログラム |
WO2008023470A1 (fr) | 2006-08-21 | 2008-02-28 | Kyoto University | Procédé de recherche de phrase, moteur de recherche de phrase, programme informatique, support d'enregistrement et stockage de document |
JP2011118526A (ja) | 2009-12-01 | 2011-06-16 | Hitachi Ltd | 単語意味関係抽出装置 |
JP2011175574A (ja) | 2010-02-25 | 2011-09-08 | Nippon Hoso Kyokai <Nhk> | 文書平易化装置および平易化規則テーブル作成装置、ならびにプログラム |
JP2017162190A (ja) | 2016-03-09 | 2017-09-14 | 富士通株式会社 | 類似文書検索プログラム、類似文書検索装置、及び類似文書検索方法 |
Also Published As
Publication number | Publication date |
---|---|
US20210165962A1 (en) | 2021-06-03 |
US11928431B2 (en) | 2024-03-12 |
JP2020057105A (ja) | 2020-04-09 |
WO2020066545A1 (en) | 2020-04-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108984683B (zh) | 结构化数据的提取方法、系统、设备及存储介质 | |
CN107220235B (zh) | 基于人工智能的语音识别纠错方法、装置及存储介质 | |
CN108460011B (zh) | 一种实体概念标注方法及系统 | |
CN109165384A (zh) | 一种命名实体识别方法及装置 | |
WO2021139247A1 (zh) | 医学领域知识图谱的构建方法、装置、设备及存储介质 | |
JP2022130635A (ja) | 会議支援システム、会議支援装置、会議支援方法及びプログラム | |
CN117501283A (zh) | 文本到问答模型系统 | |
CN114840662A (zh) | 事件信息抽取方法、装置及电子设备 | |
CN110110218A (zh) | 一种身份关联方法及终端 | |
CN111161861A (zh) | 用于医院后勤运维的短文本数据处理方法、装置 | |
CN114141384A (zh) | 用于检索医学数据的方法、设备和介质 | |
CN112151019A (zh) | 文本处理方法、装置及计算设备 | |
CN110309355A (zh) | 内容标签的生成方法、装置、设备及存储介质 | |
CN112559711A (zh) | 一种同义文本提示方法、装置及电子设备 | |
JP7147439B2 (ja) | 言語処理方法、言語処理プログラム及び言語処理装置 | |
CN109799917A (zh) | 文字输入方法和装置 | |
Lane et al. | A computational model for interactive transcription | |
JP7549977B2 (ja) | テキストマイニング装置およびテキストマイニング方法 | |
CN114138928A (zh) | 文本内容提取的方法、系统、装置、电子设备及介质 | |
Vu et al. | Lct-malta’s submission to repeval 2017 shared task | |
JP2018156552A (ja) | 計算機システム及び文章データの検索方法 | |
JP2021089473A (ja) | 文書処理プログラム、文書処理装置、及び文書処理方法 | |
KR20200113693A (ko) | 문장의 중의성을 해결하고 생략된 문법 요소를 함께 표시하는 사용자 맞춤형 번역 방법 및 그 장치 | |
JP2019194759A (ja) | 対話システム補強装置及びコンピュータプログラム | |
CN114841162B (zh) | 文本处理方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210712 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20220203 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220726 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220801 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220823 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220905 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 7147439 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |