JP7216863B1

JP7216863B1 - 情報処理装置、情報処理方法、及びプログラム

Info

Publication number: JP7216863B1
Application number: JP2022156042A
Authority: JP
Inventors: 信也久保田; 一則松本
Original assignee: KDDI Corp
Current assignee: KDDI Corp
Priority date: 2022-09-29
Filing date: 2022-09-29
Publication date: 2023-02-01
Anticipated expiration: 2042-09-29
Also published as: JP2024049674A

Abstract

【課題】自然言語の文章から不要な情報を抽出してより一般的な表現へと効率的に補正できるようにする。
【解決手段】テキストデータを取得する取得部と、テキストデータが示す文章から固有表現である単語を抽出する抽出部と、抽出部が抽出した単語をマスク記号に置換した置換文章を示すマスクテキストデータを生成するマスクテキストデータ生成部と、入力したマスクテキストデータに対して、置換文章のマスク記号を除く部分に基づいて、マスク記号に対応する一般表現化テキストを予測する予測部と、置換文章のマスク記号を一般表現化テキストに補正して補正テキストデータとして出力する補正部とを備える、情報処理装置。
【選択図】図２

Description

本発明は、情報処理装置、情報処理方法、及びプログラムに関する。

自然言語処理により、ユーザからの質問、話しかけに対する回答等をしたり、ユーザに質問、話しかけ等をしたりする対話アプリケーション、対話ロボット等が知られている。自然言語処理は、種々の技術が開発されており、例えば、自然言語の文章中で省略された主語、目的語を補完したり、文章中の指示代名詞を当該指示代名詞が意味する具体的な単語に置換したりする技術が知られている（例えば、特許文献１を参照）。

特開２０１６－１３６３４１号公報

このような自然言語処理においては、ネットワーク等から収集して蓄積した自然言語の文章をデータベース化した対話コーパスを用いて学習する学習モデルを用いることがある。しかしながら、ネットワーク等で伝達している対話文等には、特定の企業の情報、特定の価値観を含む情報等といった不要な情報が含まれていることがある。このような情報を含む対話コーパスに基づいて学習モデルを学習すると、例えば、対話アプリケーションが不要な情報を含む回答、話しかけ等を出力してしまうので、不要な情報等が入らないように対話コーパスを作成することが望ましい。従来、このような対話コーパスを作成するために、不要な情報等を人手で修正するアプローチはあったが、多くの労力がかかり、対話コーパスを効率的に生成することは困難であった。

そこで、本発明はこれらの点に鑑みてなされたものであり、自然言語の文章から不要な情報を抽出してより一般的な表現へと効率的に補正できるようにすることを目的とする。

本発明の第１の態様においては、テキストデータを取得する取得部と、前記テキストデータが示す文章から固有表現である単語を抽出する抽出部と、前記テキストデータに対し、前記抽出部が抽出した単語をマスク記号に置換した置換文章を示すマスクテキストデータを生成するマスクテキストデータ生成部と、入力した前記マスクテキストデータに対して、前記置換文章の前記マスク記号を除く部分に基づいて、前記マスク記号に対応する一般表現化テキストを予測する予測部と、前記予測部が出力した予測結果に基づき、前記置換文章の前記マスク記号を前記一般表現化テキストに補正して補正テキストデータとして出力する補正部とを備える、情報処理装置を提供する。

前記マスクテキストデータ生成部は、前記抽出部が抽出した固有表現である単語の種類毎に、異なる種類の前記マスク記号を用いて前記マスクテキストデータを生成してもよい。

固有表現の種類毎に単語を登録した複数の辞書データを記憶している記憶部を更に備え、
前記抽出部は、複数の前記辞書データを用いて、前記テキストデータが示す文章から固有表現である単語を抽出してもよい。

固有表現の種類毎に単語を登録した複数の辞書データを記憶している記憶部を更に備え、
前記抽出部は、異なる種類の前記マスク記号に対応する前記辞書データを用いて、前記テキストデータが示す文章から固有表現である単語を抽出してもよい。

前記抽出部は、施設名を示す単語については、ＡＩＣ（Akaike's Information Criterion）を用いて抽出した固有表現の単語に基づいて抽出してもよい。

前記抽出部は、抽出した固有表現の単語の候補から、単語の種類毎に予め固有表現ではない単語が登録されている除外単語リストに該当する単語を除外した単語を、抽出結果として出力してもよい。

前記記憶部が記憶している施設名の単語を登録した前記辞書データは、施設名を示す所定の１文字の単語を含まなくてもよい。

当該情報処理装置は、固有表現である単語の種類毎に対応する前記一般表現化テキストを予測する複数の前記予測部を備え、前記予測部のそれぞれは、前記マスクテキストデータに含まれている前記マスク記号のうち対応する前記マスク記号に応じて、前記一般表現化テキストを予測してもよい。

前記予測部は、学習済みの学習モデルを有し、前記学習モデルは、Ｎ個の単語を含む文章の１以上かつＮ未満の単語を前記マスク記号に置換して生成した文章を示す学習用データを入力データとし、前記入力データの１つの前記マスク記号に対して１又は複数の一般表現化されたテキストを出力するように、所定の一般表現化されたテキストを教師データとして学習したモデルでもよい。

前記予測部は、入力した前記マスクテキストデータに含まれている１つの前記マスク記号に対応して複数の前記一般表現化テキストを予測結果として出力する場合、前記一般表現化テキスト毎に予測の評価値を更に出力し、前記補正部は、前記置換文章の前記マスク記号を前記評価値に基づいて複数の前記一般表現化テキストから選択した前記一般表現化テキストに補正してもよい。

前記補正部は、前記評価値が閾値を超える前記一般表現化テキストを選択し、選択した前記一般表現化テキストが複数存在する場合、前記置換文章の前記マスク記号を選択した前記一般表現化テキスト毎に補正した複数の前記補正テキストデータを出力してもよい。

本発明の第２の態様においては、コンピュータが実行する、一般表現の単語を用いた文章を示すデータを生成する情報処理方法であって、テキストデータを取得するステップと、前記テキストデータが示す文章から固有表現である単語を抽出するステップと、前記テキストデータに対し、抽出した単語をマスク記号に置換した置換文章を示すマスクテキストデータを生成するステップと、入力した前記マスクテキストデータに対して、前記置換文章の前記マスク記号を除く部分に基づいて、前記マスク記号に対応する一般表現化テキストを予測するステップと、前記一般表現化テキストの予測結果に基づき、前記置換文章の前記マスク記号を前記一般表現化テキストに補正して補正テキストデータとして出力するステップとを備える、情報処理方法を提供する。

本発明の第３の態様においては、コンピュータにより実行されると、前記コンピュータを第１の態様に記載の前記情報処理装置として機能させる、プログラム。

本発明によれば、自然言語の文章から不要な情報を抽出してより一般的な表現へと効率的に補正できるという効果を奏する。

本実施形態に係る対話システムＳの概略構成を示す。本実施形態に係る情報処理装置１０の構成例を示す。本実施形態に係る予測部１３４が有する学習モデルが用いる学習用データの例を示す。本実施形態に係る情報処理装置１０の動作フローを示す。

＜対話システムＳの概略構成＞
図１は、本実施形態に係る対話システムＳの概略構成を示す。対話システムＳは、自然言語処理により、ユーザからの質問、話しかけに対する回答等をしたり、ユーザに質問、話しかけ等をしたりする対話システムである。対話システムＳは、情報処理装置１０と、対話文データベース２０と、対話装置３０とを備える。

情報処理装置１０は、ネットワーク等でやりとりされている対話文を示すデータをテキストデータとして収集し、収集したテキストデータに基づくデータベースを生成する（図１の（１））。テキストデータは、例えば、インターネット等で公開されている対話文を示すデータを含む。情報処理装置１０は、サーバ等のコンピュータである。情報処理装置１０の動作については後述する。本実施形態において、情報処理装置１０が生成するデータベースを対話文データベース２０とする。

対話文データベース２０は、ネットワーク等から収集して蓄積した自然言語の文章をデータベース化した対話コーパスである。対話文データベース２０は、ネットワークに接続されており、情報処理装置１０及び対話装置３０がアクセス可能に構成されている。これに代えて、対話文データベース２０は、対話装置３０に設けられている記憶装置の一部であってもよい。

対話装置３０は、対話文データベース２０に蓄積されている対話コーパスを用いて、ユーザからの質問、話しかけに対する回答を出力する。対話装置３０は、サーバ等のコンピュータである。対話装置３０は、情報処理装置１０と同一のコンピュータであってもよく、異なるコンピュータであってもよい。対話装置３０は、対話ロボット等として動作する装置の一部であってもよい。

対話装置３０は、学習済みの学習モデルを有する。学習モデルは、対話文データベース２０に記憶されている自然言語の文章を入力データとして学習する（図１の（２））。学習モデルは、例えば、大規模ニューラルネットワーク、深層学習モデル等で構築されている。対話装置３０は、このような学習モデルを用いて、ユーザとの対話文を生成して、ユーザとやりとりする（図１の（３））。このような対話装置３０が用いる学習モデルは、種々のモデルが知られており、ここでは詳細な説明を省略する。

対話装置３０が用いる学習モデルは、より多くの対話文を用いて学習されていることが望ましい。しかしながら、ネットワーク等で伝達している対話文等には、特定の企業の情報、特定の価値観を含む情報といった不要な情報を含む発言、誤った情報を含む発言、反社会的、不快な表現を含む発言等が含まれていることがある。このような発言を含む対話コーパスに基づいて学習モデルを学習すると、例えば、対話アプリケーションが不適切な回答、話しかけ等を出力してしまうことがあった。

そこで、ネットワーク等から収集した対話文等から不要な情報等を人手で修正してこのような対話コーパスを作成することもあったが、多くの労力がかかり、対話コーパスを効率的に生成することは困難であった。そこで、本実施形態に係る情報処理装置１０は、不要な情報等が入らないように対話コーパスを効率的に作成して対話文データベース２０を構築する。このような情報処理装置１０について、次に説明する。

＜情報処理装置１０の構成例＞
図２は、本実施形態に係る情報処理装置１０の構成例を示す。情報処理装置１０は、ネットワーク等でやりとりされている対話文を示すデータをテキストデータとして取得し、テキストデータに基づいて一般表現の単語を用いた補正テキストデータを出力する。情報処理装置１０は、サーバ等のコンピュータである。情報処理装置１０は、通信部１１０と、記憶部１２０と、制御部１３０とを備える。

通信部１１０は、通信ネットワーク等を介してＳＮＳ、ｗｅｂサイト、外部のデータベース等の情報にアクセス可能に構成されている。また、通信部１１０は、対話文データベース２０と通信ネットワーク等を介して情報を授受する。通信部１１０は、対話装置３０と通信ネットワーク等を介して通信してもよい。通信部１１０は、インターネット回線、無線ＬＡＮ、携帯電話網等の通信ネットワークに接続するためのインターフェースである。

記憶部１２０は、例えば、ＲＯＭ（Read Only Memory）及びＲＡＭ（Random Access Memory）等を含む記憶媒体である。また、記憶部１２０は、ＨＤＤ（Hard Disk Drive）及び／又はＳＳＤ（Solid State Drive）等の大容量記憶装置を含む記憶媒体であってもよい。記憶部１２０は、例えば、コンピュータが情報処理装置１０として機能する場合、コンピュータを機能させるＯＳ（Operating System）、及びプログラム等の情報を格納してもよい。また、記憶部１２０は、プログラムの実行時に参照されるデータを含む種々の情報を格納してもよい。

また、記憶部１２０は、情報処理装置１０が動作の過程で生成する（又は利用する）中間データ、算出結果、閾値、基準値、及びパラメータ等をそれぞれ記憶してもよい。また、記憶部１２０は、情報処理装置１０内の各部の要求に応じて、記憶したデータを要求元に供給してもよい。

制御部１３０は、情報処理装置１０の各部を制御する。例えば、制御部１３０は、通信部１１０を介して種々の情報を授受する。制御部１３０は、例えばＣＰＵ（Central Processing Unit）である。制御部１３０は、ＧＰＵ（Graphics Processing Unit）を含んでもよい。制御部１３０は、取得部１３１と、抽出部１３２と、マスクテキストデータ生成部１３３と、予測部１３４と、補正部１３５とを有する。言い換えると、ＣＰＵは、記憶部１２０に記憶されたプログラムを実行することにより、取得部１３１、抽出部１３２、マスクテキストデータ生成部１３３、予測部１３４、及び補正部１３５を有する制御部１３０として機能する。

取得部１３１は、テキストデータを取得する。テキストデータは、文章を示すデータである。テキストデータは、会話文を示すデータであることが望ましい。テキストデータは、例えば、「山田さんは、Ｔ大学を首席で卒業していてとても優秀ですね。」といった文章を示すデータである。取得部１３１は、通信部１１０を制御して、ＳＮＳ、ｗｅｂサイト、外部のデータベース等からこのようなテキストデータを取得する。

抽出部１３２は、取得部１３１が取得したテキストデータが示す文章から固有表現である単語を抽出する。抽出部１３２は、例えば、「山田さんは、Ｔ大学を首席で卒業していてとても優秀ですね。」といった文章から「山田さん」、「Ｔ大学」といった固有表現の単語を抽出する。抽出部１３２は、例えば、辞書データを参照して固有表現の単語を抽出する。辞書データは、記憶部１２０に記憶されていることが望ましい。これに代えて、又はこれに加えて、抽出部１３２は、ネットワークを介してアクセス可能な辞書データを参照してもよい。

また、抽出部１３２は、アルゴリズム等を用いて、テキストデータが示す文章から固有表現の単語を抽出してもよい。抽出部１３２は、例えば、形態素解析、探索、機械学習、ＡＩＣ（赤池情報量基準：Akaike's Information Criterion）等を用いる。ＡＩＣは、統計的モデルの予測性の良さを、観測地と理論値の差を用いて評価する統計量として知られている。このような統計量を用いて固有表現の単語を抽出することもよく知られており、ここでは詳細な説明を省略する。

マスクテキストデータ生成部１３３は、テキストデータに対し、抽出部１３２が抽出した単語をマスク記号に置換した置換文章を示すマスクテキストデータを生成する。マスク記号は、予め定められた記号であり、例えば、「＄＄＄」等である。マスクテキストデータ生成部１３３は、例えば、「山田さんは、Ｔ大学を首席で卒業していてとても優秀ですね。」といった文章に対し、抽出部１３２が抽出した「山田さん」及び「Ｔ大学」の単語をマスク記号「＄＄＄」に置換した「＄＄＄は、＄＄＄を首席で卒業していてとても優秀ですね。」といった置換文章を示すマスクテキストデータを生成する。

予測部１３４は、マスクテキストデータ生成部１３３が生成したマスクテキストデータに対して、置換文章のマスク記号を除く部分に基づいて、マスク記号に対応する一般表現化テキストを予測する。予測部１３４は、例えば、学習済みの学習モデルを有する。学習モデルは、入力したマスクテキストデータに含まれている１つのマスク記号に対応して１つの一般表現化テキストを予測結果として出力する。予測部１３４は、例えば、「＄＄＄は、＄＄＄を首席で卒業していてとても優秀ですね。」といった置換文章の「は、を首席で卒業していてとても優秀ですね。」といった部分に基づいて、２つの「＄＄＄」に対応する単語「彼」、「大学」を一般表現化テキストとして出力する。

補正部１３５は、予測部が出力した予測結果に基づき、置換文章のマスク記号を一般表現化テキストに補正して補正テキストデータとして出力する。補正部１３５は、例えば、置換文章の２つのマスク記号「＄＄＄」に対して予測部１３４が予測した一般表現化テキスト「彼」及び「大学」に補正した「彼は、大学を首席で卒業していてとても優秀ですね。」といった文章を示す補正テキストデータを出力する。

＜学習用データの例＞
図３は、本実施形態に係る予測部１３４が有する学習モデルが用いる学習用データの例を示す。学習モデルは、Ｎ個の単語を含む文章の１以上かつＮ未満の単語をマスク記号に置換して生成した文章を示す学習用データを入力データとする。図３は、「Ａさんは、先月に発売されたばかりのＢ社のＣ製品を予約し忘れて買えなかったけれど、昨日、Ｄ電気店でたまたま売っていたので買ってしまったらしい。」といった文章を示す文章データに基づき、１つの単語をマスク記号に置換して生成した学習用データの例を説明する。このような文章データは、取得部１３１がネットワーク等を介して取得してもよい。

学習用データは、例えば、「Ａさん」をマスク記号にした第１学習用データ、「Ｂ社」をマスク記号にした第２学習用データ、「Ｃ製品」をマスク記号にした第３学習用データ、「Ｄ電気店」をマスク記号にした第４学習用データである。学習モデルは、このような学習用データ（入力データ）の１つのマスク記号に対して１又は複数の一般表現化されたテキストを出力するように、所定の一般表現化されたテキストを教師データとして学習する。

教師データは、例えば、理想的な回答として情報処理装置１０のユーザ等によって選択されたデータであることが望ましい。学習モデルは、例えば、第１学習用データを入力データとした場合、「彼」、「彼女」等を教師データとして学習モデルを学習する。言い換えると、学習モデルは、第１学習用データを入力データとした場合に、「彼」、「彼女」といったテキストデータを出力するように学習する。

また、学習モデルは、第２学習用データを入力データとした場合、「最新型」、「話題」等を教師データとして学習モデルを学習する。同様に、学習モデルは、第３学習用データを入力データとした場合は「スマホ」等を教師データとし、第４学習用データを入力データとした場合は「携帯ショップ」等を教師データとして学習モデルを学習する。学習モデルは、このような学習をより多くの学習用データを用いて学習することが望ましい。

これにより、予測部１３４は、マスク記号に対応する一般表現化テキストを精度よく出力するようにチューニングした学習モデルを用いることができる。また、予測部１３４の学習モデルは、１つの文章データから１又は複数の単語をマスク記号に置換した複数の学習用データを生成し、学習用データ毎に適切な教師データを用いて学習する。これにより、学習モデルは、複数のマスク記号を有するマスクテキストデータであっても、それぞれのマスク記号に対して適切な一般表現化テキストを出力することができる。

このような予測部１３４が有する学習モデルは、Masked Language Model等の既知の学習モデルを用いて実現できる。学習モデルは、例えば、リカレントニューラルネットワーク（ＲＮＮ）、ＧＰＴ－２、ＢＥＲＴ、ＡＬＢＥＲＴ等の学習モデルの少なくとも一部を利用して構成できる。なお、ＲＮＮ、ＧＰＴ－２、ＢＥＲＴ、ＡＬＢＥＲＴ等は、既知のモデルなのでここでは学習モデルの具体的な構成については詳細な説明を省略する。

以上の本実施形態に係る情報処理装置１０は、ネットワーク等からテキストデータを取得し、テキストデータが示す文章の固有表現の単語を一般表現化テキストに補正してから補正テキストデータとして出力する。言い換えると、情報処理装置１０は、自然言語の文章から不要な情報を抽出してより一般的な表現へと効率的に補正できる。

情報処理装置１０が出力する補正テキストデータは、自然言語処理に用いる学習モデルの入力データとして好ましいデータである。したがって、情報処理装置１０は、このような補正テキストデータを蓄積してデータベース化することで、例えば、対話装置３０が用いる対話コーパスとして適切な対話文データベース２０を構築することができる。情報処理装置１０は、学習済みの学習モデル等を用いるので、人手によらず自動でこのような対話文データベース２０を効率的に構築でき、また、大規模な対話文データベース２０も構築できる。以上の情報処理装置１０の動作について次に説明する。

＜情報処理装置１０の動作フロー＞
図４は、本実施形態に係る情報処理装置１０の動作フローを示す。情報処理装置１０は、図４に示すＳ５１からＳ５６の動作を実行して、一般表現の単語を用いた文章を示すデータを生成する。

まず、取得部１３１は、通信部１１０を制御して、テキストデータを取得する（Ｓ５１）。取得部１３１は、取得したテキストデータを記憶部１２０に記憶させてもよい。次に、抽出部１３２は、取得部１３１が取得したテキストデータが示す文章から固有表現である単語を抽出する（Ｓ５２）。次に、マスクテキストデータ生成部１３３は、テキストデータに対し、抽出部１３２が抽出した単語をマスク記号に置換した置換文章を示すマスクテキストデータを生成する（Ｓ５３）。

次に、予測部１３４は、マスクテキストデータ生成部１３３が生成したマスクテキストデータに対して、置換文章のマスク記号を除く部分に基づいて、マスク記号に対応する一般表現化テキストを予測する（Ｓ５４）。次に、補正部１３５は、予測部１３４による一般表現化テキストの予測結果に基づき、置換文章のマスク記号を一般表現化テキストに補正して補正テキストデータとして出力する（Ｓ５５）。

補正部１３５は、記憶部１２０に補正テキストデータを出力して記憶させてもよく、これに代えて、対話文データベース２０、外部のデータベース等に補正テキストデータを出力してもよい。記憶部１２０は、例えば、補正部１３５が記憶部１２０に補正テキストデータを出力した場合、補正テキストデータをデータベースとして蓄積する。

情報処理装置１０は、動作を終了させるまで、Ｓ５１からＳ５５の動作を繰り返して補正テキストデータを出力する（Ｓ５６：Ｎｏ）。なお、情報処理装置１０は、Ｓ５１において取得部１３１が複数のテキストデータを取得し、複数のテキストデータのそれぞれにＳ５２からＳ５５の動作を実行して、対応する複数の補正テキストデータを出力してもよい。

情報処理装置１０は、所定の条件を満たしたことに基づき、動作を終了させる（Ｓ５６：Ｙｅｓ）。所定の条件は、例えば、所定の動作時間、補正テキストデータを蓄積した数又は量、Ｓ５１からＳ５５の動作の繰り返し数等である。また、情報処理装置１０は、情報処理装置１０のユーザ等が動作停止を入力したことに応じて、動作を終了させてもよい。制御部１３０は、補正部１３５が記憶部１２０に補正テキストデータを出力した場合、記憶部１２０に蓄積されたデータベースを対話文データベース２０として出力する。

以上のように、本実施形態に係る情報処理装置１０は、補正テキストデータを蓄積した対話文データベース２０を構築できる。そして、対話装置３０は、対話文データベース２０を用いて学習を行い、ユーザと適切に対話をすることができる。

＜他の構成例＞
以上の本実施形態に係る情報処理装置１０において、抽出部１３２が１つの辞書データを参照してテキストデータが示す文章から固有表現の単語を抽出する例を説明した。ここで、抽出部１３２は、複数の辞書データを用いてもよい。例えば、記憶部１２０は、複数の辞書データを記憶していてもよい。

抽出部１３２が抽出する固有表現の単語は、人名、施設名、企業名、地名、その他等といった種類に分類できる単語である。そこで、記憶部１２０は、例えば、人名辞書、施設名辞書、企業名辞書、地名辞書、その他辞書等といったように、固有表現の種類毎に単語を登録した複数の辞書データを記憶していてもよい。このように、抽出部１３２が単語の種類毎に専門の辞書を用いることにより、より正確にテキストデータが示す文章から固有表現の単語を抽出することができる。

以上の本実施形態に係る情報処理装置１０において、マスクテキストデータ生成部１３３がマスク記号を用いてマスクテキストデータを生成する例を説明した。ここで、マスクテキストデータ生成部１３３は、抽出部１３２が抽出した固有表現である単語の種類毎に、異なる種類のマスク記号を用いてマスクテキストデータを生成してもよい。この場合、マスクテキストデータ生成部１３３は、例えば、人名には「＄＄＄」、施設名には「＃＃＃」、企業名には「！！！」、地名には「％％％」、その他の単語には「＆＆＆」等のマスク記号を用いる。

この場合、抽出部１３２は、異なる種類のマスク記号に対応する辞書データを用いて、テキストデータが示す文章から固有表現である単語を抽出することになる。マスクテキストデータ生成部１３３は、一例として、「山田さんは、Ｔ大学を首席で卒業していてとても優秀ですね。」といった文章に対し、「＄＄＄は、＃＃＃を首席で卒業していてとても優秀ですね。」といった置換文章を示すマスクテキストデータを生成する。

このように、マスクテキストデータ生成部１３３が固有表現の単語の種類毎に、対応するマスク記号を用いてマスクテキストデータを生成した場合、予測部１３４は、全てのマスク記号に対応する一般表現化テキストを一度に予測してもよく、これに代えて、固有表現の単語の種類毎に一般表現化テキストを予測してもよい。

この場合、情報処理装置１０は、固有表現である単語の種類毎に対応する一般表現化テキストを予測する複数の予測部１３４を備えてもよい。これにより、予測部１３４のそれぞれは、マスクテキストデータに含まれているマスク記号のうち対応するマスク記号に応じて、一般表現化テキストを予測する。

情報処理装置１０は、例えば、人名の一般表現化テキストを予測する第１予測部、施設名の一般表現化テキストを予測する第２予測部、企業名の一般表現化テキストを予測する第３予測部、地名の一般表現化テキストを予測する第４予測部、及びその他の一般表現化テキストを予測する第５予測部を備える。予測部１３４のそれぞれは、異なる種類の単語に対応する一般化表現テキストを出力するように学習した学習モデルを有することが望ましい。このように、固有表現の単語の種類毎に予測部１３４を備えることにより、予測部１３４のそれぞれは一般表現化テキストをより精度よく予測することができる。

以上の本実施形態に係る情報処理装置１０において、抽出部１３２が辞書データを参照してテキストデータが示す文章から固有表現の単語を抽出する例を説明したが、これに限定されることはない。抽出部１３２は、更に、固有表現ではない単語を登録した除外単語リストを用いて、固有表現の単語を抽出してもよい。

例えば、抽出部１３２は、抽出した単語を固有表現の単語の候補とし、除外単語リストを参照する。そして、抽出部１３２は、抽出した固有表現の単語の候補から除外単語リストに該当する単語を除外した単語を、抽出結果として出力する。除外単語リストは、単語の種類毎に予め固有表現ではない単語が登録されていることが望ましい。これにより、抽出部１３２は、より精度よく固有表現の単語を抽出することができる。

なお、抽出部１３２が抽出すべき固有表現の単語には、「東京都新宿区区役所前Ｘホテル」等のように、複数の単語が連結している複合名詞等もある。特に、施設名の単語にこのような単語が多い傾向にある。このような複合名詞を全て辞書に登録すると辞書は膨大なものになることがあり、また、辞書への登録漏れが発生することもある。

そこで、抽出部１３２は、施設名を示す単語については、ＡＩＣを用いて抽出した固有表現の単語に基づいて抽出してもよい。例えば、ＡＩＣを用いて複合名詞を抽出した場合、当該複合名詞を抽出単語候補とし、抽出単語候補の末尾の単語が辞書に含まれていることに応じて、抽出単語候補を固有表現の単語として抽出する。なお、末尾の単語は、１語であってもよく、２語又は３語といった複数の単語であってもよい。これにより、例えば、施設名辞書に単語「ホテル」が登録されていることにより、抽出部１３２は、「東京都新宿区区役所前Ｘホテル」といった複合名詞を抽出することができる。

また、施設名を示す単語には、「上野駅」等のように、末尾の単語が「駅」、「家」、「館」、「寺」といった所定の１文字の単語を含むことがある。しかしながら、所定の１文字の単語は例えば「道の駅」「自然の家」「旅館」などのように、一般名詞に含まれるものが多い、そこで、記憶部１２０が記憶している施設名の単語を登録した辞書データは、上記のような所定の１文字を含まないものとすることが望ましい。

そして、抽出部１３２は、例えば、ＡＩＣを用いて複合名詞を抽出し、末尾の単語が辞書データに含まれていることに応じて、抽出した複合名詞を固有表現の単語として抽出する。これにより、抽出部１３２は、「道の駅」「自然の家」「旅館」といった一般名詞を抽出することなく、より正確に固有表現の単語を抽出することができる。

同様に、施設名を示す単語には、末尾の単語が「ダム」、「通り」、「渡し」、「バー」、「おもて」、「いえ」、「うち」、「となり」、「んち」といった施設名辞書に含まれる単語の表現以外にも頻出する（「思い通り」「橋渡し」「カバー」等）ものもある。そこで、記憶部１２０が記憶している施設名の単語を登録した辞書データからは、これらの所定の文字も、含まれないものとすることが望ましい。

そして、抽出部１３２は、例えば、ＡＩＣを用いて複合名詞を抽出し、末尾の単語が辞書データに含まれていることに応じて、抽出した複合名詞を固有表現の単語として抽出する。これにより、抽出部１３２は、より正確に固有表現の単語を抽出することができる。なお、所定の１文字、所定の文字は、記憶部１２０にリスト化されて記憶されていることが望ましい。

なお、施設名を示す単語については、所定の末尾の単語のみを残す（「東京都新宿区区役所前Ｘホテル」の場合には、「ホテル」のみを残す）ことによって、一般化表現テキストとして、利用することも考えられる。抽出部１３２は、例えば、ＡＩＣを用いて複合名詞を抽出し、抽出した複合名詞の末尾の１文字が所定の１文字に一致せず、末尾の単語が所定の文字に一致せず、また、末尾の単語が辞書データに含まれている場合（所定の単語と一致する場合）、末尾の単語以外の当該複合名詞に含まれている文字を削除する。これにより、抽出部１３２は、当該複合名詞に対するマスクテキストデータ生成部１３３、予測部１３４、及び補正部１３５の動作を省略して、当該複合名詞を一般表現化テキストに変換できる。

以上の本実施形態に係る情報処理装置１０において、予測部１３４は、マスクテキストデータに含まれているマスク記号に対応する一般化表現化テキストを予測する例を説明した。ここで、予測部１３４は、入力したマスクテキストデータに含まれている１つのマスク記号に対応して複数の一般表現化テキストを予測結果として出力してもよい。

予測部１３４は、例えば、「＄＄＄は、とても優秀ですね。」といったマスクテキストデータのマスク記号に対して、「彼」、「彼女」、「コンピュータ」等の複数の単語を一般表現化テキストとして出力する。予測部１３４は、複数の一般表現化テキストをする場合、一般表現化テキスト毎に予測の評価値を更に出力することが望ましい。

そして、補正部１３５は、予測部１３４が複数の一般表現化テキストを評価値と共に出力した場合、置換文章のマスク記号を当該評価値に基づいて複数の一般表現化テキストから選択した一般表現化テキストに補正してもよい。補正部１３５は、例えば、評価値が閾値を超える一般表現化テキストを選択し、マスク記号を選択した一般化表現テキストに補正する。

補正部１３５は、例えば、一般表現化テキストが「彼」、「彼女」、「コンピュータ」であり、評価値が閾値を超えている一般表現化テキストが「彼」の場合、マスクテキストデータを「彼は、とても優秀ですね。」を示す補正テキストデータに補正して出力する。これにより、情報処理装置１０は、テキストデータによりマッチする一般表現化テキストを選択してより自然な文章を示す補正テキストデータを出力することができる。

なお、補正部１３５は、選択した一般表現化テキストが複数存在する場合、置換文章のマスク記号を選択した一般表現化テキスト毎に補正した複数の補正テキストデータを出力してもよい。補正部１３５は、例えば、一般表現化テキストが「彼」、「彼女」、「コンピュータ」であり、評価値が閾値を超えている一般表現化テキストが「彼」及び「彼女」の場合、「彼は、とても優秀ですね。」及び「彼女は、とても優秀ですね。」の２つの補正テキストデータを出力する。

これに代えて、補正部１３５は、予測部１３４が評価値を出力せずに複数の一般表現化テキストを出力した場合、置換文章のマスク記号を一般表現化テキスト毎に補正した複数の補正テキストデータを出力してもよい。以上のように、情報処理装置１０は、効率的により多くの補正テキストデータを出力することができる。

以上の本実施形態に係る情報処理装置１０は、特別なテキストデータを用意することなく、ネットワーク等を介して収集したテキストデータを用いて、効率的に補正テキストデータを出力することができる。ここで、ネットワーク等でやりとりされているテキストデータには、不要な記号、注釈、ＵＲＬ情報等の自然言語処理には不要な単語等が含まれていることがある。

そこで、取得部１３１は、取得したテキストデータの中から不要な単語を予め除去してもよい。この場合、記憶部１２０は、不要な単語の情報を登録したＮＧワードリストを記憶していることが望ましい。これにより、取得部１３１は、例えば、ＮＧワードリストを参照すること、ＮＧワードリストに基づくパターンマッチング等により、テキストデータの中から不要な単語を予め除去することができる。

以上の本実施形態に係る情報処理装置１０は、対話装置３０が用いる対話文データベース２０を生成する例を説明したが、これに限定されることはない。情報処理装置１０が出力する補正テキストデータは、自然言語処理に用いられる対話コーパスとして利用できる。したがって、情報処理装置１０は、対話コーパスを用いる処理装置であれば、このような処理装置が利用するデータとして補正テキストデータを出力してもよい。

なお、本発明により、国連が主導する持続可能な開発目標（SDGs）の目標９「産業と技術革新の基盤をつくろう」に貢献することが可能となる。

以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されず、その要旨の範囲内で種々の変形及び変更が可能である。例えば、装置の全部又は一部は、任意の単位で機能的又は物理的に分散・統合して構成することができる。また、複数の実施の形態の任意の組み合わせによって生じる新たな実施の形態も、本発明の実施の形態に含まれる。組み合わせによって生じる新たな実施の形態の効果は、もとの実施の形態の効果を併せ持つ。

１０情報処理装置
２０対話文データベース
３０対話装置
１１０通信部
１２０記憶部
１３０制御部
１３１取得部
１３２抽出部
１３３マスクテキストデータ生成部
１３４予測部
１３５補正部

Claims

テキストデータを取得する取得部と、
前記テキストデータが示す文章から固有表現である単語を抽出する抽出部と、
前記テキストデータに対し、前記抽出部が抽出した単語をマスク記号に置換した置換文章を示すマスクテキストデータを生成するマスクテキストデータ生成部と、
入力した前記マスクテキストデータに対して、前記置換文章の前記マスク記号を除く部分に基づいて、前記マスク記号に対応する一般表現化テキストを予測する予測部と、
前記予測部が出力した予測結果に基づき、前記置換文章の前記マスク記号を前記一般表現化テキストに補正して補正テキストデータとして出力する補正部と
を備える、情報処理装置。
前記マスクテキストデータ生成部は、前記抽出部が抽出した固有表現である単語の種類毎に、異なる種類の前記マスク記号を用いて前記マスクテキストデータを生成する、
請求項１に記載の情報処理装置。
固有表現の種類毎に単語を登録した複数の辞書データを記憶している記憶部を更に備え、
前記抽出部は、複数の前記辞書データを用いて、前記テキストデータが示す文章から固有表現である単語を抽出する、
請求項１に記載の情報処理装置。
固有表現の種類毎に単語を登録した複数の辞書データを記憶している記憶部を更に備え、
前記抽出部は、異なる種類の前記マスク記号に対応する前記辞書データを用いて、前記テキストデータが示す文章から固有表現である単語を抽出する、
請求項２に記載の情報処理装置。
前記抽出部は、施設名を示す単語については、ＡＩＣ（Akaike's Information Criterion）を用いて抽出した固有表現の単語に基づいて抽出する、
請求項２に記載の情報処理装置。
前記抽出部は、抽出した固有表現の単語の候補から、単語の種類毎に予め固有表現ではない単語が登録されている除外単語リストに該当する単語を除外した単語を、抽出結果として出力する、
請求項２に記載の情報処理装置。
前記記憶部が記憶している施設名の単語を登録した前記辞書データは、施設名を示す所定の１文字の単語を含まない、
請求項３に記載の情報処理装置。
当該情報処理装置は、固有表現である単語の種類毎に対応する前記一般表現化テキストを予測する複数の前記予測部を備え、
前記予測部のそれぞれは、前記マスクテキストデータに含まれている前記マスク記号のうち対応する前記マスク記号に応じて、前記一般表現化テキストを予測する、
請求項２に記載の情報処理装置。
前記予測部は、学習済みの学習モデルを有し、
前記学習モデルは、Ｎ個の単語を含む文章の１以上かつＮ未満の単語を前記マスク記号に置換して生成した文章を示す学習用データを入力データとし、前記入力データの１つの前記マスク記号に対して１又は複数の一般表現化されたテキストを出力するように、所定の一般表現化されたテキストを教師データとして学習したモデルである、
請求項１に記載の情報処理装置。
前記予測部は、入力した前記マスクテキストデータに含まれている１つの前記マスク記号に対応して複数の前記一般表現化テキストを予測結果として出力する場合、前記一般表現化テキスト毎に予測の評価値を更に出力し、
前記補正部は、前記置換文章の前記マスク記号を前記評価値に基づいて複数の前記一般表現化テキストから選択した前記一般表現化テキストに補正する、
請求項１に記載の情報処理装置。
前記補正部は、
前記評価値が閾値を超える前記一般表現化テキストを選択し、
選択した前記一般表現化テキストが複数存在する場合、前記置換文章の前記マスク記号を選択した前記一般表現化テキスト毎に補正した複数の前記補正テキストデータを出力する、
請求項１０に記載の情報処理装置。
コンピュータが実行する、一般表現の単語を用いた文章を示すデータを生成する情報処理方法であって、
テキストデータを取得するステップと、
前記テキストデータが示す文章から固有表現である単語を抽出するステップと、
前記テキストデータに対し、抽出した単語をマスク記号に置換した置換文章を示すマスクテキストデータを生成するステップと、
入力した前記マスクテキストデータに対して、前記置換文章の前記マスク記号を除く部分に基づいて、前記マスク記号に対応する一般表現化テキストを予測するステップと、
前記一般表現化テキストの予測結果に基づき、前記置換文章の前記マスク記号を前記一般表現化テキストに補正して補正テキストデータとして出力するステップと
を備える、情報処理方法。
コンピュータにより実行されると、前記コンピュータを請求項１から１１のいずれか一項に記載の前記情報処理装置として機能させる、プログラム。