JP7216863B1 - 情報処理装置、情報処理方法、及びプログラム - Google Patents
情報処理装置、情報処理方法、及びプログラム Download PDFInfo
- Publication number
- JP7216863B1 JP7216863B1 JP2022156042A JP2022156042A JP7216863B1 JP 7216863 B1 JP7216863 B1 JP 7216863B1 JP 2022156042 A JP2022156042 A JP 2022156042A JP 2022156042 A JP2022156042 A JP 2022156042A JP 7216863 B1 JP7216863 B1 JP 7216863B1
- Authority
- JP
- Japan
- Prior art keywords
- mask
- text data
- text
- generalized
- information processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 73
- 238000003672 processing method Methods 0.000 title claims description 5
- 238000000605 extraction Methods 0.000 claims abstract description 43
- 239000000284 extract Substances 0.000 claims abstract description 27
- 230000014509 gene expression Effects 0.000 claims abstract description 15
- 238000012937 correction Methods 0.000 claims description 25
- 238000011156 evaluation Methods 0.000 claims description 11
- 230000006870 function Effects 0.000 claims description 5
- 150000001875 compounds Chemical class 0.000 description 14
- 238000004891 communication Methods 0.000 description 13
- 238000003058 natural language processing Methods 0.000 description 7
- 230000002452 interceptive effect Effects 0.000 description 6
- 238000012545 processing Methods 0.000 description 4
- 102100033814 Alanine aminotransferase 2 Human genes 0.000 description 2
- 101710096000 Alanine aminotransferase 2 Proteins 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000007717 exclusion Effects 0.000 description 2
- 238000000034 method Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
前記抽出部は、複数の前記辞書データを用いて、前記テキストデータが示す文章から固有表現である単語を抽出してもよい。
前記抽出部は、異なる種類の前記マスク記号に対応する前記辞書データを用いて、前記テキストデータが示す文章から固有表現である単語を抽出してもよい。
図1は、本実施形態に係る対話システムSの概略構成を示す。対話システムSは、自然言語処理により、ユーザからの質問、話しかけに対する回答等をしたり、ユーザに質問、話しかけ等をしたりする対話システムである。対話システムSは、情報処理装置10と、対話文データベース20と、対話装置30とを備える。
図2は、本実施形態に係る情報処理装置10の構成例を示す。情報処理装置10は、ネットワーク等でやりとりされている対話文を示すデータをテキストデータとして取得し、テキストデータに基づいて一般表現の単語を用いた補正テキストデータを出力する。情報処理装置10は、サーバ等のコンピュータである。情報処理装置10は、通信部110と、記憶部120と、制御部130とを備える。
図3は、本実施形態に係る予測部134が有する学習モデルが用いる学習用データの例を示す。学習モデルは、N個の単語を含む文章の1以上かつN未満の単語をマスク記号に置換して生成した文章を示す学習用データを入力データとする。図3は、「Aさんは、先月に発売されたばかりのB社のC製品を予約し忘れて買えなかったけれど、昨日、D電気店でたまたま売っていたので買ってしまったらしい。」といった文章を示す文章データに基づき、1つの単語をマスク記号に置換して生成した学習用データの例を説明する。このような文章データは、取得部131がネットワーク等を介して取得してもよい。
図4は、本実施形態に係る情報処理装置10の動作フローを示す。情報処理装置10は、図4に示すS51からS56の動作を実行して、一般表現の単語を用いた文章を示すデータを生成する。
以上の本実施形態に係る情報処理装置10において、抽出部132が1つの辞書データを参照してテキストデータが示す文章から固有表現の単語を抽出する例を説明した。ここで、抽出部132は、複数の辞書データを用いてもよい。例えば、記憶部120は、複数の辞書データを記憶していてもよい。
20 対話文データベース
30 対話装置
110 通信部
120 記憶部
130 制御部
131 取得部
132 抽出部
133 マスクテキストデータ生成部
134 予測部
135 補正部
Claims (13)
- テキストデータを取得する取得部と、
前記テキストデータが示す文章から固有表現である単語を抽出する抽出部と、
前記テキストデータに対し、前記抽出部が抽出した単語をマスク記号に置換した置換文章を示すマスクテキストデータを生成するマスクテキストデータ生成部と、
入力した前記マスクテキストデータに対して、前記置換文章の前記マスク記号を除く部分に基づいて、前記マスク記号に対応する一般表現化テキストを予測する予測部と、
前記予測部が出力した予測結果に基づき、前記置換文章の前記マスク記号を前記一般表現化テキストに補正して補正テキストデータとして出力する補正部と
を備える、情報処理装置。 - 前記マスクテキストデータ生成部は、前記抽出部が抽出した固有表現である単語の種類毎に、異なる種類の前記マスク記号を用いて前記マスクテキストデータを生成する、
請求項1に記載の情報処理装置。 - 固有表現の種類毎に単語を登録した複数の辞書データを記憶している記憶部を更に備え、
前記抽出部は、複数の前記辞書データを用いて、前記テキストデータが示す文章から固有表現である単語を抽出する、
請求項1に記載の情報処理装置。 - 固有表現の種類毎に単語を登録した複数の辞書データを記憶している記憶部を更に備え、
前記抽出部は、異なる種類の前記マスク記号に対応する前記辞書データを用いて、前記テキストデータが示す文章から固有表現である単語を抽出する、
請求項2に記載の情報処理装置。 - 前記抽出部は、施設名を示す単語については、AIC(Akaike's Information Criterion)を用いて抽出した固有表現の単語に基づいて抽出する、
請求項2に記載の情報処理装置。 - 前記抽出部は、抽出した固有表現の単語の候補から、単語の種類毎に予め固有表現ではない単語が登録されている除外単語リストに該当する単語を除外した単語を、抽出結果として出力する、
請求項2に記載の情報処理装置。 - 前記記憶部が記憶している施設名の単語を登録した前記辞書データは、施設名を示す所定の1文字の単語を含まない、
請求項3に記載の情報処理装置。 - 当該情報処理装置は、固有表現である単語の種類毎に対応する前記一般表現化テキストを予測する複数の前記予測部を備え、
前記予測部のそれぞれは、前記マスクテキストデータに含まれている前記マスク記号のうち対応する前記マスク記号に応じて、前記一般表現化テキストを予測する、
請求項2に記載の情報処理装置。 - 前記予測部は、学習済みの学習モデルを有し、
前記学習モデルは、N個の単語を含む文章の1以上かつN未満の単語を前記マスク記号に置換して生成した文章を示す学習用データを入力データとし、前記入力データの1つの前記マスク記号に対して1又は複数の一般表現化されたテキストを出力するように、所定の一般表現化されたテキストを教師データとして学習したモデルである、
請求項1に記載の情報処理装置。 - 前記予測部は、入力した前記マスクテキストデータに含まれている1つの前記マスク記号に対応して複数の前記一般表現化テキストを予測結果として出力する場合、前記一般表現化テキスト毎に予測の評価値を更に出力し、
前記補正部は、前記置換文章の前記マスク記号を前記評価値に基づいて複数の前記一般表現化テキストから選択した前記一般表現化テキストに補正する、
請求項1に記載の情報処理装置。 - 前記補正部は、
前記評価値が閾値を超える前記一般表現化テキストを選択し、
選択した前記一般表現化テキストが複数存在する場合、前記置換文章の前記マスク記号を選択した前記一般表現化テキスト毎に補正した複数の前記補正テキストデータを出力する、
請求項10に記載の情報処理装置。 - コンピュータが実行する、一般表現の単語を用いた文章を示すデータを生成する情報処理方法であって、
テキストデータを取得するステップと、
前記テキストデータが示す文章から固有表現である単語を抽出するステップと、
前記テキストデータに対し、抽出した単語をマスク記号に置換した置換文章を示すマスクテキストデータを生成するステップと、
入力した前記マスクテキストデータに対して、前記置換文章の前記マスク記号を除く部分に基づいて、前記マスク記号に対応する一般表現化テキストを予測するステップと、
前記一般表現化テキストの予測結果に基づき、前記置換文章の前記マスク記号を前記一般表現化テキストに補正して補正テキストデータとして出力するステップと
を備える、情報処理方法。 - コンピュータにより実行されると、前記コンピュータを請求項1から11のいずれか一項に記載の前記情報処理装置として機能させる、プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022156042A JP7216863B1 (ja) | 2022-09-29 | 2022-09-29 | 情報処理装置、情報処理方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022156042A JP7216863B1 (ja) | 2022-09-29 | 2022-09-29 | 情報処理装置、情報処理方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP7216863B1 true JP7216863B1 (ja) | 2023-02-01 |
JP2024049674A JP2024049674A (ja) | 2024-04-10 |
Family
ID=85119991
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022156042A Active JP7216863B1 (ja) | 2022-09-29 | 2022-09-29 | 情報処理装置、情報処理方法、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7216863B1 (ja) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006092198A (ja) | 2004-09-22 | 2006-04-06 | Fuji Xerox Co Ltd | データ処理装置およびプログラム |
JP2017091570A (ja) | 2017-01-19 | 2017-05-25 | Psソリューションズ株式会社 | 対話インターフェース |
JP2019082987A (ja) | 2017-10-30 | 2019-05-30 | パナソニックIpマネジメント株式会社 | 情報処理方法、情報処理装置およびプログラム |
US20200380075A1 (en) | 2019-05-30 | 2020-12-03 | International Business Machines Corporation | Linguistic data and memory reorganization |
-
2022
- 2022-09-29 JP JP2022156042A patent/JP7216863B1/ja active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006092198A (ja) | 2004-09-22 | 2006-04-06 | Fuji Xerox Co Ltd | データ処理装置およびプログラム |
JP2017091570A (ja) | 2017-01-19 | 2017-05-25 | Psソリューションズ株式会社 | 対話インターフェース |
JP2019082987A (ja) | 2017-10-30 | 2019-05-30 | パナソニックIpマネジメント株式会社 | 情報処理方法、情報処理装置およびプログラム |
US20200380075A1 (en) | 2019-05-30 | 2020-12-03 | International Business Machines Corporation | Linguistic data and memory reorganization |
Also Published As
Publication number | Publication date |
---|---|
JP2024049674A (ja) | 2024-04-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108363790B (zh) | 用于对评论进行评估的方法、装置、设备和存储介质 | |
US10936664B2 (en) | Dialogue system and computer program therefor | |
JP4762103B2 (ja) | 韻律統計モデル訓練方法及び装置、並びに韻律解析方法及び装置 | |
JP4852448B2 (ja) | 誤り傾向学習音声認識装置及びコンピュータプログラム | |
CN110245349B (zh) | 一种句法依存分析方法、装置及一种电子设备 | |
WO2015166606A1 (ja) | 自然言語処理システム、自然言語処理方法、および自然言語処理プログラム | |
US20220058349A1 (en) | Data processing method, device, and storage medium | |
KR20170122755A (ko) | 함의 페어 확장 장치, 그것을 위한 컴퓨터 프로그램, 및 질문 응답 시스템 | |
JP6988924B2 (ja) | 質問群抽出方法、質問群抽出装置および質問群抽出プログラム | |
JP6145059B2 (ja) | モデル学習装置、形態素解析装置、及び方法 | |
JP2007102104A (ja) | 応答文生成装置、応答文生成方法、そのプログラムおよび記憶媒体 | |
JP6586026B2 (ja) | 単語ベクトル学習装置、自然言語処理装置、方法、及びプログラム | |
JP7216863B1 (ja) | 情報処理装置、情報処理方法、及びプログラム | |
JP6232358B2 (ja) | 次発話候補ランキング装置、方法、及びプログラム | |
JP2019125154A (ja) | 情報処理装置、会話データ処理方法及び情報処理システム | |
Marchand et al. | Evaluating automatic syllabification algorithms for English | |
CN111090720B (zh) | 一种热词的添加方法和装置 | |
JP6067616B2 (ja) | 発話生成手法学習装置、発話生成手法選択装置、発話生成手法学習方法、発話生成手法選択方法、プログラム | |
JP6667875B2 (ja) | 要約文作成モデル学習装置、要約文作成装置、要約文作成モデル学習方法、要約文作成方法、及びプログラム | |
JP6526607B2 (ja) | 学習装置、学習方法、および学習プログラム | |
Khan et al. | A corpus based sql formation from bangla language using neural machine translation | |
US12001465B2 (en) | Response selecting apparatus, response selecting method, and response selecting program | |
JP7366316B2 (ja) | 学習装置、推論装置、プログラム、学習方法及び推論方法 | |
JP2013011985A (ja) | 解析モデル学習装置、方法、及びプログラム | |
US20210117458A1 (en) | Response selecting apparatus, response selecting method, and response selecting program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220929 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20221129 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230104 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230120 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7216863 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |