JP2019086958A

JP2019086958A - 言語解析方法およびプログラム

Info

Publication number: JP2019086958A
Application number: JP2017213773A
Authority: JP
Inventors: 陽前澤; Akira Maezawa
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2017-11-06
Filing date: 2017-11-06
Publication date: 2019-06-06

Abstract

【課題】時系列に配列された複数の単語で構成される文または各単語の種別を高精度に解析する。【解決手段】情報処理装置は、時系列に配列された複数の単語の各々について、当該単語が文末または文頭に位置するか否かを推定し、当該単語の種別または当該単語を含む文の種別を、当該単語と、前記推定の結果に対応する解析データとに応じて推定する。【選択図】なし

Description

本発明は、複数の単語を解析する技術に関する。

自然言語を解析する各種の技術が従来から提案されている。例えば特許文献１には、概念構造（積層構造）と概念表現との対応を規定した概念体系データを利用して、発話内容に含まれる概念表現を抽出し、抽出後の各概念表現の相互間における関係を特定する言語理解装置が開示されている。

特開２００８−１４６１５０号公報

しかし、特許文献１の技術を含む従来の技術のもとでは、複数の単語の時系列で構成される文または各単語の種別を高精度に解析することは困難である。以上の事情を考慮して、本発明の好適な態様は、複数の単語の時系列を高精度に解析することを目的とする。

以上の課題を解決するために、本発明の好適な態様に係る言語解析方法は、時系列に配列された複数の単語の各々について、当該単語が文末または文頭に位置するか否かを推定し、当該単語の種別または当該単語を含む文の種別を、当該単語と、前記推定の結果に対応する解析データとに応じて推定する。

本発明の好適な態様に係るプログラムは、時系列に配列された複数の単語の各々について、当該単語が文末または文頭に位置するか否かを推定する処理と、当該単語の種別または当該単語を含む文の種別を、当該単語と、前記推定の結果に対応する解析データとに応じて推定する処理とをコンピュータを実行させる。

本発明の第１実施形態に係る情報処理装置の構成を示すブロック図である。利用者による発話内容に応じた提示文の説明図である。対訳データの説明図である。制御装置の機能的な構成を示すブロック図である。属性データの説明図である。種別解析部の動作の説明図である。種別解析部の構成を示すブロック図である。提示文特定処理のフローチャートである。言語解析処理のフローチャートである。第３実施形態の情報処理装置および端末装置の構成を示すブロック図である。第３実施形態における制御装置の機能的な構成を示すブロック図である。第３実施形態における提示文特定処理のフローチャートである。第３実施形態における登録文テーブルの模式図である。第３実施形態における単語テーブルの模式図である。

＜第１実施形態＞
図１は、本発明の第１実施形態に係る情報処理装置１００Aの構成を例示するブロック図である。図１に例示される通り、第１実施形態の情報処理装置１００Aは、制御装置１１と記憶装置１２と収音装置１３と表示装置１４とを具備するコンピュータシステムで実現される。例えば携帯電話機もしくはスマートフォン等の可搬型の情報端末、またはパーソナルコンピュータ等の可搬型または据置型の情報端末が、情報処理装置１００Aとして好適に利用され得る。なお、収音装置１３および表示装置１４が情報処理装置１００Aに搭載された構成を図１では例示したが、情報処理装置１００Aとは別体の収音装置１３または表示装置１４を情報処理装置１００Aに有線または無線で接続してもよい。

収音装置１３は、周囲の音響を収音し、当該音響の波形を表す音響信号Ｖを生成する。なお、収音装置１３が生成した音響信号Ｖをアナログからデジタルに変換するＡ/Ｄ変換器の図示は便宜的に省略した。情報処理装置１００Aの利用者は、第１言語（例えば日本語）の任意の文字列を収音装置１３に対して発話する。収音装置１３は、利用者が発話した音声の波形を表す音響信号Ｖを生成する。表示装置１４は、制御装置１１による制御のもとで各種の画像を表示する。例えば液晶表示パネルまたは有機ＥＬ（Electroluminescence）表示パネルが表示装置１４として好適に採用される。

情報処理装置１００Aは、利用者が発話した内容に対応した文（以下「提示文」という）を第１言語と第２言語とで表示装置１４に表示する。第１言語と第２言語とは相異なる言語である。第１実施形態では、第１言語が日本語であり、第２言語が英語である場合を便宜的に想定する。利用者が第１言語で「東京から大阪までは３万円です」と発話した場合、図２に例示される通り、利用者による発話と同様の趣旨を第１言語で表現した「お値段は３万円です」という提示文Ｑ1と、当該提示文Ｑ1を第２言語で表現した「The total amount is 30,000 yen.」という提示文Ｑ2とが表示装置１４に並列に表示される。すなわち、利用者による発話と趣旨は同様であるが表現は相違する提示文Ｑ（Ｑ1，Ｑ2）が提示される。なお、以上の例示では日本語と英語との組合せを例示したが、第１言語と第２言語との組合せは任意である。

制御装置１１は、例えばＣＰＵ（Central Processing Unit）等の処理回路であり、情報処理装置１００Aを構成する各要素（記憶装置１２，収音装置１３および表示装置１４）を統括的に制御する。記憶装置１２は、例えば磁気記録媒体もしくは半導体記録媒体等の公知の記録媒体、または、複数種の記録媒体の組合せで構成され、制御装置１１が実行するプログラムと制御装置１１が使用する各種のデータとを記憶する。なお、情報処理装置１００Aとは別体の記憶装置１２（例えばクラウドストレージ）を用意し、移動体通信網またはインターネット等の通信網を介して制御装置１１が記憶装置１２に対する書込および読出を実行してもよい。すなわち、記憶装置１２は情報処理装置１００Aから省略され得る。

第１実施形態の記憶装置１２は、図３に例示される通り、相異なる発話内容に対応する複数の対訳データＤを記憶する。複数の対訳データＤの各々は、利用者による発話が想定される文と同様の趣旨の文（以下「登録文」という）を表すデータである。具体的には、任意の１個の対訳データＤは、利用者による発話が想定される文と同様の趣旨を第１言語で表現した登録文Ｒ1と、登録文Ｒ1の内容を第２言語で表現した登録文Ｒ2（すなわち登録文Ｒ1の対訳文）とを含む。すなわち、対訳データＤは、同様の趣旨を別言語で表現した登録文Ｒ1と登録文Ｒ2とを相互に対応付けたデータである。

登録文Ｒ1および登録文Ｒ2の各々は、図３に例示される通り１個以上の挿入部Ｂを含む。挿入部Ｂは、任意の単語が挿入される空欄である。登録文Ｒ1および登録文Ｒ2の各々の挿入部Ｂに可変の単語が挿入されることで提示文Ｑ（Ｑ1，Ｑ2）が構成される。すなわち、登録文Ｒ1および登録文Ｒ2の各々は、定型的な文字列（すなわちテンプレート）である。図３に例示される通り、登録文Ｒ1および登録文Ｒ2の各々については、挿入部Ｂに挿入される単語の種別（以下「単語種別」という）が挿入部Ｂ毎に設定される。例えば図３には、単語種別が「値段」に設定された挿入部Ｂを含む第１言語の登録文Ｒ1と第２言語の登録文Ｒ2とが例示されている。

記憶装置１２には、文（sentence）に関する相異なる種別（以下「文種別」という）毎に対訳データＤが記憶される。文種別は、意味または趣旨の区別（すなわち内容的な分類）である。例えば、図３に例示される通り、「会計」の文種別については、「お値段は｛値段｝です」という第１言語の登録文Ｒ1と「The total amount is ｛値段｝」という第２言語の登録文Ｒ2とを含む対訳データＤが記憶される。第１実施形態の情報処理装置１００Aは、利用者による発話内容から文種別を特定し、当該文種別について記憶装置１２に記憶された対訳データＤの登録文Ｒ（Ｒ1，Ｒ2）から提示文Ｑ（Ｑ1，Ｑ2）を生成および表示する。

図４は、制御装置１１の機能的な構成を示すブロック図である。図４に例示される通り、制御装置１１は、記憶装置１２に記憶されたプログラムを実行することで、利用者による発話内容に対応した提示文Ｑを特定するための複数の機能（音声解析部２１，単語解析部２２，種別解析部２３および特定処理部２４）を実現する。なお、複数の装置の集合（すなわちシステム）で制御装置１１の機能を実現してもよいし、制御装置１１の機能の一部または全部を専用の電子回路で実現してもよい。

音声解析部２１は、利用者が発話した文字列（以下「発話文字列」という）を構成する複数（Ｎ個）の単語ω_１〜ω_Ｎを特定する。具体的には、音声解析部２１は、収音装置１３が生成する音響信号Ｖに対する音声認識により発話文字列を特定し、形態素解析等の自然言語処理により発話文字列をＮ個の単語ω_１〜ω_Ｎに区分する。発話文字列は１個以上の文で構成される。なお、音響信号Ｖに対する音声認識には、例えばHMM（Hidden Markov Model）等の音響モデルと言語的な制約を示す言語モデルとを利用した公知の認識処理が任意に採用され得る。なお、情報処理装置１００Aが通信可能なサーバ装置に音声解析部２１を設置し、情報処理装置１００Aが当該サーバ装置から各単語ω_ｎを取得してもよい。

単語解析部２２は、発話文字列を構成するＮ個の単語ω_１〜ω_Ｎの各々について、当該単語ω_ｎ（ｎ＝１〜Ｎ）を表す単語ベクトルＷ_ｎを生成する。単語ベクトルＷ_ｎは、言語空間（意味空間）における単語ω_ｎの位置を表すベクトルである。単語ベクトルＷ_ｎを特定する方法は任意であるが、例えばニューラルネットワーク等の学習済モデル（Word2Vec）を利用して各単語ω_ｎを２００次元程度の単語ベクトルＷ_ｎで表現する解析処理（Tomas Mikolov et al."Efficient Estimation of Word Representations in Vector Space," arXiv:1301.3781 [cs.CL], 2013）が好適に利用される。なお、情報処理装置１００Aが通信可能なサーバ装置に単語解析部２２を設置し、情報処理装置１００Aが当該サーバ装置から単語ベクトルＷ_ｎを取得してもよい。

種別解析部２３は、時系列に配列されたＮ個の単語ω_１〜ω_Ｎの各々について、当該単語ω_ｎの属性を表す属性データＡ_ｎを生成する。図５に例示される通り、任意の１個の属性データＡ_ｎは、区切データＸ_ｎと文種別データＹ_ｎと単語種別データＺ_ｎとを含む。

区切データＸ_ｎは、発話文字列の各単語ω_ｎが文末に位置するか否かを表す。具体的には、区切データＸ_ｎは、要素ｘ_１および要素ｘ_２で構成される。単語ω_ｎが文末に位置する場合に要素ｘ_１が「１」に設定されるとともに要素ｘ_２が「０」に設定され、単語ω_ｎが文末以外（文頭または文中）に位置する場合に要素ｘ_１が「０」に設定されるとともに要素ｘ_２が「１」に設定される。なお、文末に位置するか否かを１ビットで表すフラグを区切データＸ_ｎとして生成してもよい。

文種別データＹ_ｎは、単語ω_ｎを含む文の文種別を表す。具体的には、文種別データＹ_ｎは、(Ｍ＋１)個の要素ｙ_１〜ｙ_Ｍ＋１で構成される(Ｍ＋１)次元のベクトルである。自然数Ｍ（図５の例ではＭ＝３）は、文種別の総数（すなわち対訳データＤの総数）に相当する。具体的には、単語ω_ｎを含む文がＭ個の文種別のうち第ｍ番目の文種別に該当する場合、文種別データＹ_ｎにおける第ｍ番目の要素ｙ_ｍが「１」に設定され、かつ、第ｍ番目以外の要素が「０」に設定される。なお、単語ω_ｎを含む文がＭ個の文種別の何れにも該当しない場合、文種別データＹ_ｎにおける第(Ｍ＋１)番目の要素ｙ_Ｍ＋１が「１」に設定され、第(Ｍ＋１)番目以外の要素ｙ_１〜ｙ_Ｍが「０」に設定される。なお、文種別データＹ_ｎの形式は任意であり、例えば各文種別に一意に付与された識別番号を文種別データＹ_ｎとして生成してもよい。

単語種別データＺ_ｎは、単語ω_ｎの単語種別を表す。具体的には、単語種別データＺ_ｎは、(Ｋ＋１)個の要素ｚ_１〜ｚ_Ｋ＋１で構成される(Ｋ＋１)次元のベクトルである。自然数Ｋ（図５の例ではＫ＝５）は、単語種別の総数に相当する。具体的には、単語ω_ｎがＫ個の単語種別のうち第ｋ番目の単語種別に該当する場合、単語種別データＺ_ｎにおける第ｋ番目の要素ｚ_ｋが「１」に設定され、かつ、第ｋ番目以外の要素が「０」に設定される。なお、単語ω_ｎがＫ個の単語種別の何れにも該当しない場合、単語種別データＺ_ｎにおける第(Ｋ＋１)番目の要素ｚ_Ｋ＋１が「１」に設定され、第(Ｋ＋１)番目以外の要素ｚ_１〜ｚ_Ｋが「０」に設定される。なお、単語種別データＺ_ｎの形式は任意であり、例えば各単語種別に一意に付与された識別番号を単語種別データＺ_ｎとして生成してもよい。

種別解析部２３による属性データＡ_ｎの生成は単語ω_ｎ毎に実行される。すなわち、種別解析部２３は、図６に例示される通り、時系列に配列されたＮ個の単語ω_１〜ω_Ｎの各々について、当該単語ω_ｎの属性を表す属性データＡ_ｎを生成する。

図７は、種別解析部２３の具体的な構成を例示するブロック図である。第１実施形態の種別解析部２３はニューラルネットワークνで構成される。ニューラルネットワークνは、単語ベクトルＷと属性データＡとを対応させた複数の教師データを利用した機械学習（特に深層学習）により単語ベクトルＷと属性データＡとの関係を学習した学習済モデルである。すなわち、単語ベクトルＷを付与したときに生成される属性データＡと、教師データが当該単語ベクトルＷに対応させた属性データＡとの相違を示す目的関数（例えば相互エントロピ）を最小化する機械学習により、ニューラルネットワークνを規定する複数の係数が設定される。したがって、ニューラルネットワークνは、複数の教師データから抽出される傾向（単語ベクトルＷと属性データＡとの関係）のもとで単語ベクトルＷ_ｎに対して妥当な属性データＡ_ｎを出力する。図７に例示される通り、第１実施形態のニューラルネットワークνは、第１ニューラルネットワークν1と第２ニューラルネットワークν2と第３ニューラルネットワークν3とを含んで構成される。

第１ニューラルネットワークν1は、単語ベクトルＷと区切データＸとの関係を学習した学習済モデルであり、任意の１個の単語ベクトルＷ_ｎを入力として区切データＸ_ｎを出力する。すなわち、第１ニューラルネットワークν1は、時系列に配列された各単語ω_ｎについて、当該単語ω_ｎが文末に位置するか否かを推定する。

図７に例示される通り、第１ニューラルネットワークν1は、再帰型ニューラルネットワーク（RNN：Recurrent Neural Network）ν11と全結合層ν12と活性化ユニットν13とを含んで構成される。再帰型ニューラルネットワークν11および全結合層ν12に適用される複数の係数が機械学習により設定される。

再帰型ニューラルネットワークν11は、単語ベクトルＷ_ｎに応じた状態ベクトルＰa_ｎ（第１状態ベクトルの例示）を出力する。例えば長期短期記憶（LSTM：Long Short Term Memory）が再帰型ニューラルネットワークν11として好適である。全結合層ν12は、状態ベクトルＰa_ｎに応じた状態ベクトルＰb_ｎを出力する。活性化ユニットν13は、全結合層ν12が出力する状態ベクトルＰb_ｎに応じた区切データＸ_ｎを生成する。活性化ユニットν13で使用される活性化関数としては例えばSoftmax関数が好適である。

第１ニューラルネットワークν1が生成する状態ベクトルＰa_ｎを単語ベクトルＷ_ｎに連結した状態ベクトルＵa_ｎ（第２状態ベクトルの例示）が第２ニューラルネットワークν2に入力される。第２ニューラルネットワークν2は、状態ベクトルＵaと文種別データＹとの関係を学習した学習済モデルであり、任意の１個の状態ベクトルＵa_ｎ（単語ベクトルＷ_ｎおよび状態ベクトルＰa_ｎ）を入力として文種別データＹ_ｎを出力する。すなわち、第２ニューラルネットワークν2は、単語ω_ｎを含む文の文種別を状態ベクトルＵa_ｎから推定する。

以上の通り、第２ニューラルネットワークν2による文種別データＹ_ｎの生成には単語ベクトルＷ_ｎが反映される。したがって、特定の単語（例えば「です」「ます」等）の前後で文種別が変更され易いという傾向のもとで文種別データＹ_ｎを生成することが可能である。さらに、第１実施形態では、区切データＸ_ｎを生成する過程で第1ニューラルネットワークν1が生成する状態ベクトルＰa_ｎが、第２ニューラルネットワークν2による文種別データＹ_ｎの生成に利用される。したがって、文末の直後には文種別が変更され易く、文末以外では文種別が維持され易いという傾向のもとで、単語ベクトルＷ_ｎに応じた文種別データＹ_ｎを生成することが可能である。

図７に例示される通り、第２ニューラルネットワークν2は、活性化ユニットν21と再帰型ニューラルネットワークν22と全結合層ν23と活性化ユニットν24とを含んで構成される。再帰型ニューラルネットワークν22および全結合層ν23に適用される複数の係数が機械学習により設定される。

活性化ユニットν21は、状態ベクトルＵa_ｎに応じた状態ベクトルＵb_ｎを出力する。活性化ユニットν21で使用される活性化関数としては例えばLeaky ReLU（Rectified Linear Unit）が好適である。再帰型ニューラルネットワークν22は状態ベクトルＵb_ｎに応じた状態ベクトルＵc_ｎを生成し、全結合層ν23は状態ベクトルＵc_ｎに応じた状態ベクトルＵd_ｎを生成する。再帰型ニューラルネットワークν22としては例えばLSTMが好適である。活性化ユニットν24は、全結合層ν23が出力する状態ベクトルＵd_ｎに応じた文種別データＹ_ｎを生成する。活性化ユニットν24で使用される活性化関数としては例えばSoftmax関数が好適である。

第２ニューラルネットワークν2が生成する状態ベクトルＵc_ｎを単語ベクトルＷ_ｎに連結した状態ベクトルＶa_ｎが第３ニューラルネットワークν3に入力される。第３ニューラルネットワークν3は、状態ベクトルＶaと単語種別データＺとの関係を学習した学習済モデルであり、任意の１個の状態ベクトルＶa_ｎ（単語ベクトルＷ_ｎおよび状態ベクトルＵc_ｎ）を入力として単語種別データＺ_ｎを出力する。すなわち、第３ニューラルネットワークν3は、単語ω_ｎの単語種別を状態ベクトルＶa_ｎから推定する。

以上の通り、単語ベクトルＷ_ｎに加えて、文種別データＹ_ｎを生成する過程で第２ニューラルネットワークν2が生成する状態ベクトルＵc_ｎが、第３ニューラルネットワークν3による単語種別データＺ_ｎの生成に利用される。したがって、単語ω_ｎの単語種別が文種別に応じて変化するという傾向のもとで、単語ω_ｎの単語種別データＺ_ｎを生成することが可能である。

図７に例示される通り、第３ニューラルネットワークν3は、活性化ユニットν31と再帰型ニューラルネットワークν32と全結合層ν33と活性化ユニットν34とを含んで構成される。再帰型ニューラルネットワークν32および全結合層ν33に適用される複数の係数が機械学習により設定される。

活性化ユニットν31は、状態ベクトルＶa_ｎに応じた状態ベクトルＶb_ｎを出力する。活性化ユニットν31で使用される活性化関数としては例えばLeaky ReLUが好適である。再帰型ニューラルネットワークν32は状態ベクトルＶb_ｎに応じた状態ベクトルＶc_ｎを生成し、全結合層ν33は状態ベクトルＶc_ｎに応じた状態ベクトルＶd_ｎを生成する。再帰型ニューラルネットワークν32としては例えばLSTMが好適である。活性化ユニットν34は、全結合層ν33が出力する状態ベクトルＶd_ｎに応じた単語種別データＺ_ｎを生成する。活性化ユニットν34で使用される活性化関数としては例えばSoftmax関数が好適である。

以上の説明から理解される通り、第２ニューラルネットワークν2および第３ニューラルネットワークν3は、単語ω_ｎの単語ベクトルＷ_ｎと第１ニューラルネットワークν1が生成する状態ベクトルＰa_ｎとに応じて当該単語ω_ｎの単語種別および当該文の文種別を推定するニューラルネットワークν4として機能する。第１実施形態における種別解析部２３の具体的な構成は以上の通りである。

図４の特定処理部２４は、種別解析部２３が各単語ω_ｎについて特定した属性データＡ_ｎから提示文Ｑ（Ｑ1，Ｑ2）を特定する。図８は、特定処理部２４が属性データＡ_ｎから提示文Ｑを生成する処理（以下「提示文特定処理Ｓ3」という）のフローチャートである。例えば種別解析部２３が属性データＡ_ｎを生成するたびに（すなわち単語ω_ｎ毎に）、図８の提示文特定処理Ｓ3が実行される。

提示文特定処理Ｓ3を開始すると、特定処理部２４は、種別解析部２３が生成した最新の属性データＡ_ｎにおける区切データＸ_ｎを参照することで、単語ω_ｎが文末に位置するか否かを判定する（Ｓ31）。単語ω_ｎが文末に位置しない場合（Ｓ31：NO）、特定処理部２４は提示文特定処理Ｓ3を終了する。他方、単語ω_ｎが文末に位置する場合（Ｓ31：YES）、特定処理部２４は、当該単語ω_ｎを末尾に含む発話文字列に対応する提示文Ｑ（Ｑ1，Ｑ2）を特定および提示するための以下の処理（Ｓ32〜Ｓ36）を実行する。すなわち、発話文字列の文末の単語ω_ｎを音声解析部２１が特定するたびに提示文Ｑが特定される。

特定処理部２４は、最新の属性データＡ_ｎの文種別データＹ_ｎが示す文種別に対応した対訳データＤ（登録文Ｒ1および登録文Ｒ2）を記憶装置１２から取得する（Ｓ32）。すなわち、利用者による発話内容（発話文字列）と同様の趣旨を第１言語で表現した登録文Ｒ1と第２言語で表現した登録文Ｒ2とが特定される。

特定処理部２４は、ステップＳ32で特定した第１言語の登録文Ｒ1の挿入部Ｂに、当該挿入部Ｂの単語種別と同じ単語種別が種別解析部２３により推定された単語ω_ｎ（以下「推定単語ωa」という）を挿入することで、第１言語の提示文Ｑ1を生成する（Ｓ33）。例えば、登録文Ｒ1に含まれる挿入部Ｂの単語種別が「値段」である場合、特定処理部２４は、図６の例示において単語種別データＺ_ｎが「値段」を単語種別として示す「３万円」という単語ω_ｎを推定単語ωaとして当該挿入部Ｂに挿入することで、図２の例示の通り「お値段は３万円です」という提示文Ｑ1が生成される。

特定処理部２４は、第１言語の推定単語ωaを第２言語で表現した単語（以下「翻訳単語ωb」という）を特定する（Ｓ34）。例えば、第１言語の単語と第２言語の単語とを相互に対応させた辞書データを参照することで、特定処理部２４は翻訳単語ωbを特定する。例えば、第１言語の推定単語ωaが「３万円」である場合、「30,000yen」という第２言語の翻訳単語ωbが特定される。

特定処理部２４は、ステップＳ32で特定した第２言語の登録文Ｒ2の挿入部Ｂに翻訳単語ωbを挿入することで、第２言語の提示文Ｑ2を生成する（Ｓ35）。例えば、「30,000yen」という翻訳単語ωbを登録文Ｒ2の挿入部Ｂに挿入することで、図２の例示の通り、「The total amount is 30,000 yen.」という第２言語の提示文Ｑ2が生成される。特定処理部２４は、以上の処理で生成した第１言語の提示文Ｑ1と第２言語の提示文Ｑ2とを、図２の例示のように表示装置１４に表示させる（Ｓ36）。以上が提示文特定処理Ｓ3の具体例である。

図９は、第１実施形態の制御装置１１（単語解析部２２，種別解析部２３および特定処理部２４）が実行する処理（以下「言語解析処理」という）を例示するフローチャートである。音声解析部２１が音響信号Ｖに対する音声認識で単語ω_ｎを特定するたびに図９の言語解析処理が実行される。言語解析処理を開始すると、単語解析部２２は、単語ω_ｎを表す単語ベクトルＷ_ｎを生成する（Ｓ1）。

種別解析部２３は、単語解析部２２が生成した単語ベクトルＷ_ｎを入力とするニューラルネットワークνにより属性データＡ_ｎを生成する（Ｓ21〜Ｓ23）。具体的には、種別解析部２３は、単語ω_ｎが文末に位置するか否かを示す区切データＸ_ｎを、単語ベクトルＷ_ｎを入力とする第１ニューラルネットワークν1により生成する（Ｓ21）。また、種別解析部２３は、状態ベクトルＵa_ｎ（単語ベクトルＷ_ｎおよび状態ベクトルＰa_ｎ）を入力とする第２ニューラルネットワークν2により、単語ω_ｎを含む文の文種別を示す文種別データＹ_ｎを生成する（Ｓ22）。種別解析部２３は、状態ベクトルＶa_ｎ（単語ベクトルＷ_ｎおよび状態ベクトルＵc_ｎ）を入力とする第３ニューラルネットワークν3により、単語ω_ｎの単語種別を示す単語種別データＺ_ｎを生成する。以上の例示の通り、区切データＸ_ｎと文種別データＹ_ｎと単語種別データＺ_ｎとを含む属性データＡ_ｎが単語ω_ｎについて生成される。

以上の処理により単語ω_ｎの属性データＡ_ｎが生成されると、特定処理部２４は、図８に例示した提示文特定処理Ｓ3（Ｓ31〜Ｓ35）を実行することで、当該属性データＡ_ｎに応じた第１言語の提示文Ｑ1および第２言語の提示文Ｑ2を生成して表示装置１４に表示させる。

以上に説明した通り、第１実施形態では、単語ω_ｎが文末に位置するか否かが第１ニューラルネットワークν1により推定され、第１ニューラルネットワークν1による推定の過程で生成される状態ベクトルＰa_ｎを入力とするニューラルネットワークν4により文種別および単語種別が推定される。すなわち、単語ω_ｎが文末に位置するか否かが、ニューラルネットワークν4による文種別および単語種別の推定に反映される。したがって、第１ニューラルネットワークν1とは独立に文種別および単語種別を推定する構成（例えばニューラルネットワークν4が単語ベクトルＷ_ｎのみから種別を推定する構成）と比較して、各単語ω_ｎの単語種別と当該単語ω_ｎを含む文の文種別を高精度に解析することが可能である。

なお、利用者による発話内容を提示する方法としては、例えば、音響信号Ｖに対する音声認識で特定された第１言語の発話文字列と、当該発話文字列に対する機械翻訳で生成された第２言語の翻訳文とを表示する構成（以下「対比例」という）も想定される。しかし、対比例では、音声認識における誤認識または機械翻訳における誤翻訳により、利用者の発話内容を適切に表す文字列が表示されない可能性がある。第１実施形態では、記憶装置１２に事前に用意された複数の登録文Ｒ（Ｒ1，Ｒ2）の何れかを含む提示文Ｑが表示されるから、音響信号Ｖに対する音声認識に誤認識が発生した場合でも、言語的に適正な提示文Ｑを表示できるという利点がある。

＜第２実施形態＞
本発明の第２実施形態について説明する。なお、以下に例示する各態様において機能または作用が第１実施形態と同様である要素については、第１実施形態の説明で使用した符号を流用して各々の詳細な説明を適宜に省略する。

第１実施形態では、単語ωの単語ベクトルＷとその単語ω自体の属性データＡとを対応させた複数の教師データをニューラルネットワークνの機械学習に利用した。しかし、例えば日本語の発話においては、発話文字列の１個の単語の単語種別または文種別が、当該単語の後方に位置する他の単語に依存するという傾向がある。例えば、「東京から京都まで」という発話文字列を仮定する。「東京」という単語が発音された時点では、当該単語の単語種別が「出発地」および「到着地」の何れに該当するのかを確定できず、「から」または「まで」という単語が観測された段階で、「東京」の単語種別が「出発地」であることが判明する。

以上の傾向を考慮して、第２実施形態では、機械学習用の各種の文字列における単語ω_ｎの単語ベクトルＷ_ｎと、当該文字列において単語ω_ｎからｄ個（ｄは所定の自然数）だけ前方の単語ω_ｎ−ｄの属性データＡ_ｎ−ｄとを対応させた教師データを、ニューラルネットワークνの機械学習に利用する。

したがって、学習済のニューラルネットワークνは、発話文字列を構成する各単語ω_ｎ（第１単語の例示）の単語ベクトルＷ_ｎを入力として、発話文字列内で当該単語ω_ｎからｄ個だけ前方の単語ω_ｎ−ｄ（第２単語の例示）に対して妥当な属性データＡ_ｎ−ｄを出力する。例えば、第１ニューラルネットワークν1は、単語ベクトルＷ_ｎを入力として区切データＸ_ｎ−ｄを生成する。第２ニューラルネットワークν2は、単語ベクトルＷ_ｎを入力として文種別データＹ_ｎ−ｄを生成する。第３ニューラルネットワークν3は、単語ベクトルＷ_ｎを入力として単語種別データＺ_ｎ−ｄを生成する。

以上の説明から理解される通り、第２実施形態では、第１ニューラルネットワークν1と第２ニューラルネットワークν2と第３ニューラルネットワークν3との各々は、各単語ω_ｎ（第１単語の例示）の単語ベクトルＷ_ｎを含む入力に対して、発話文字列において当該単語ω_ｎの前方に位置する単語ω_ｎ−ｄ（第２単語の例示）に関する推定を実行する。具体的には、第１ニューラルネットワークν1は、単語ω_ｎの単語ベクトルＷ_ｎを入力として、前方の単語ω_ｎ−ｄが文末に位置するか否かを推定する。第２ニューラルネットワークν2は、単語ω_ｎの単語ベクトルＷ_ｎを入力として、前方の単語ω_ｎ−ｄを含む文の文種別を推定し、第３ニューラルネットワークν3は、単語ω_ｎの単語ベクトルＷ_ｎを入力として、前方の単語ω_ｎ−ｄの単語種別を推定する。

第２実施形態においても第１実施形態と同様の効果が実現される。また、第２実施形態では、ニューラルネットワークνが、各単語ω_ｎの単語ベクトルＷ_ｎを含む入力に対して当該単語ω_ｎの前方の単語ω_ｎ−ｄに関する推定を実行する。したがって、各単語の単語種別または文種別が後方の単語に依存するという現実の発話の傾向のもとで各単語の単語種別または文種別を高精度に推定できるという利点がある。

＜第３実施形態＞
図１０は、第３実施形態における情報処理装置１００Bの構成を示すブロック図である。図１０に例示される通り、第３実施形態の情報処理装置１００Bは、制御装置１１と記憶装置１２と収音装置１３と放音装置１５とを具備するコンピュータシステムで実現される。例えば携帯電話機もしくはスマートフォン等の可搬型の情報端末、またはパーソナルコンピュータ等の可搬型または据置型の情報端末が、情報処理装置１００Bとして好適に利用され得る。

第１実施形態と同様に、制御装置１１は、例えばＣＰＵ等の処理回路であり、記憶装置１２は、制御装置１１が実行するプログラムと制御装置１１が使用する各種のデータとを記憶する各種の記録媒体である。収音装置１３は、第１実施形態と同様に、利用者が発話した音声の波形を表す音響信号Ｖを生成する。

放音装置１５（例えばスピーカ装置）は、制御装置１１から供給される音響信号Ｇaに応じた音波を放射する。なお、制御装置１１が生成した音響信号Ｇaをデジタルからアナログに変換するＤ/Ａ変換器の図示は便宜的に省略した。また、情報処理装置１００Bに放音装置１５が搭載された構成を図１０では例示したが、情報処理装置１００Bとは別体の放音装置１５を情報処理装置１００Bに有線または無線で接続してもよい。

図１１は、第３実施形態における制御装置１１の機能的な構成を示すブロック図である。図１１に例示される通り、第３実施形態の制御装置１１は、第１実施形態と同様の要素（音声解析部２１，単語解析部２２，種別解析部２３および特定処理部２４）に加えて信号処理部２５として機能する。なお、制御装置１１とは別体で構成された信号処理回路により信号処理部２５を実現してもよい。

音声解析部２１、単語解析部２２および種別解析部２３の機能および動作は第１実施形態と同様である。なお、各単語ω_ｎの単語ベクトルＷ_ｎの入力に対して前方の単語ω_ｎ−ｄに関する推定を実行する第２実施形態の構成を、第３実施形態の種別解析部２３に同様に適用してもよい。

特定処理部２４は、種別解析部２３が各単語ω_ｎについて特定した属性データＡ_ｎから提示文Ｑを特定する。具体的には、第３実施形態の特定処理部２４は、図８に例示した提示文特定処理Ｓ3に代えて、図１２の提示文特定処理Ｓ4を実行する。例えば種別解析部２３が属性データＡ_ｎを生成するたびに（すなわち単語ω_ｎ毎に）、図１２の提示文特定処理Ｓ4が実行される。

特定処理部２４は、第１実施形態と同様に、単語ω_ｎが文末に位置するか否かを判定する（Ｓ41）。単語ω_ｎが文末に位置しない場合（Ｓ41：NO）、特定処理部２４は提示文特定処理Ｓ4を終了する。他方、単語ω_ｎが文末に位置する場合（Ｓ41：YES）、特定処理部２４は、当該単語ω_ｎを末尾に含む発話文字列に対応する提示文Ｑを特定するための以下の処理（Ｓ42，Ｓ43）を実行する。すなわち、発話文字列の文末の単語ω_ｎを音声解析部２１が特定するたびに提示文Ｑが特定される。

特定処理部２４は、最新の属性データＡ_ｎの文種別データＹ_ｎが示す文種別の識別情報Ｆaを特定する（Ｓ42）。識別情報Ｆaは、文種別を識別するための符号である。例えば文種別データＹ_ｎ自体を識別情報Ｆaとして利用してもよいし、文種別データＹ_ｎに対応する符号列を識別情報Ｆaとして利用してもよい。なお、登録文Ｒは文種別毎に用意されるから、識別情報Ｆaは、登録文Ｒを識別するための符号とも換言され得る。

特定処理部２４は、ステップＳ42の挿入部Ｂに挿入される推定単語ωaの識別情報Ｆbを特定する（Ｓ43）。推定単語ωaは、第１実施形態と同様に、登録文Ｒにおける挿入部Ｂの単語種別と同じ単語種別が種別解析部２３により推定された単語ω_ｎである。識別情報Ｆbは、推定単語ωaを識別するための符号である。例えば単語毎に識別情報Ｆbが登録されたテーブルを参照して、特定処理部２４は推定単語ωaの識別情報Ｆbを特定する。第３実施形態における提示文特定処理Ｓ4の具体例は以上の通りである。

図１１の信号処理部２５は、特定処理部２４が生成した識別情報Ｆaおよび識別情報Ｆbを音響成分として表す音響信号Ｇaを生成する。具体的には、信号処理部２５は、識別情報Ｆaおよび識別情報Ｆbに対する各種の変調処理（例えば振幅変調、周波数変調または拡散変調）により音響信号Ｇaを生成する。識別情報Ｆaおよび識別情報Ｆbを表す音響成分の周波数帯域は、人間が通常の環境で聴取する音響の周波数帯域を上回る範囲（例えば１８ｋＨｚ以上かつ２０ｋＨｚ以下）である。

第３実施形態の放音装置１５は、信号処理部２５が生成した音響信号Ｇaが表す音波を放射する。すなわち、放音装置１５は、空気振動としての音波を伝送媒体とした音響通信により識別情報Ｆaおよび識別情報Ｆbを周囲に送信する送信機としても機能する。なお、収音装置１３が生成した音響信号Ｖと信号処理部２５が生成した音響信号Ｇaとを混合してから放音装置１５に供給してもよい。

情報処理装置１００Bから音響通信により送信された識別情報Ｆaおよび識別情報Ｆbは、図１０の端末装置２００により受信される。図１０に例示される通り、端末装置２００は、制御装置５１と記憶装置５２と収音装置５３と表示装置５４とを具備する。例えば携帯電話機もしくはスマートフォン等の可搬型の情報端末、またはパーソナルコンピュータ等の可搬型または据置型の情報端末が、端末装置２００として好適に利用され得る。

収音装置５３は、周囲の音響を収音する。具体的には、収音装置５３は、情報処理装置１００Bの放音装置１５が再生する音響を収音し、当該音響の波形を表す音響信号Ｇbを生成する。音響信号Ｇbは、識別情報Ｆaおよび識別情報Ｆbの音響成分を含む。すなわち、第３実施形態の収音装置５３は、空気振動としての音波を伝送媒体とする音響通信で識別情報Ｆaおよび識別情報Ｆbを受信する受信機として機能する。なお、収音装置５３が生成した音響信号Ｇbをアナログからデジタルに変換するＡ/Ｄ変換器の図示は便宜的に省略した。表示装置５４は、例えば液晶表示パネルまたは有機ＥＬ表示パネルで構成され、制御装置５１による制御のもとで各種の画像を表示する。

制御装置５１は、例えばＣＰＵ等の処理回路で構成され、端末装置２００の各要素を統括的に制御する。記憶装置５２は、制御装置５１が実行するプログラムと制御装置５１が使用する各種のデータとを記憶する。例えば半導体記録媒体もしくは磁気記録媒体等の公知の記録媒体、または複数種の記録媒体の組合せが、記憶装置５２として任意に利用される。

記憶装置５２は、登録文テーブルＴ1と単語テーブルＴ2とを記憶する。登録文テーブルＴ1は、図１３に例示される通り、第１言語の登録文Ｒ1と第２言語の登録文Ｒ2とを識別情報Ｆa毎に含むデータテーブルである。他方、単語テーブルＴ2は、図１４に例示される通り、推定単語ωaと翻訳単語ωbとを識別情報Ｆb毎に含むデータテーブルである。前述の通り、登録文Ｒ2は、登録文Ｒ1を第２言語で表現した文字列であり、翻訳単語ωbは、推定単語ωaを第２言語で表現した単語である。

制御装置５１は、収音装置５３が生成した音響信号Ｇbから識別情報Ｆaおよび識別情報Ｆbを抽出する。具体的には、制御装置５１は、音響信号Ｇbのうち識別情報Ｆaおよび識別情報Ｆbの音響成分を含む周波数帯域を強調するフィルタ処理と、信号処理部２５による変調処理に対応した復調処理とを実行することで、音響信号Ｇbから識別情報Ｆaおよび識別情報Ｆbを抽出する。

制御装置５１は、識別情報Ｆaに対応する登録文Ｒ1および登録文Ｒ2を登録文テーブルＴ1から特定し、識別情報Ｆbに対応する推定単語ωaおよび翻訳単語ωbを単語テーブルＴ2から特定する。そして、制御装置５１は、登録文Ｒ1の挿入部Ｂに推定単語ωaを挿入した第１言語の提示文Ｑ1と、登録文Ｒ2の挿入部Ｂに翻訳単語ωbを挿入した第２言語の提示文Ｑ2とを生成して表示装置５４に表示させる。以上の説明から理解される通り、第３実施形態では、図２に例示した画像が端末装置２００の表示装置５４に表示される。

第３実施形態においても第１実施形態と同様の効果が実現される。また、第３実施形態では、識別情報Ｆaおよび識別情報Ｆbが情報処理装置１００Bから端末装置２００に送信されるから、提示文Ｑ1および提示文Ｑ2を端末装置２００において表示させることが可能である。したがって、交通施設や商業施設等の各種の施設の従業者が情報処理装置１００Bを使用することで、当該施設に関する案内を施設内の各端末装置２００に提供できるという利点がある。

＜変形例＞
以上に例示した各態様に付加される具体的な変形の態様を以下に例示する。以下の例示から任意に選択された２個以上の態様を、相互に矛盾しない範囲で適宜に併合してもよい。

（１）前述の各形態では、第１言語の提示文Ｑ1と第２言語の提示文Ｑ2とを表示したが、提示文Ｑ1および提示文Ｑ2の一方のみを表示してもよい。また、第１言語の提示文Ｑ1に対する機械翻訳で第２言語の提示文Ｑ2を生成してもよい。提示文Ｑ1または提示文Ｑ2を発音した音声をスピーカ等の放音装置により再生してもよい。提示文Ｑ1または提示文Ｑ2の音声は、例えば各種の音声合成技術により生成される。以上の説明から理解される通り、提示文Ｑ1または提示文Ｑ2は、提示装置により提示される文として包括的に表現される。提示文Ｑ1または提示文Ｑ2を表示する表示装置（１４，５４）および提示文Ｑ1または提示文Ｑ2の音声を再生する放音装置は、提示装置の好適例である。

（２）前述の各形態では、各単語ω_ｎが文末に位置するか否かを種別解析部２３が推定したが、各単語ω_ｎが文頭に位置するか否かを種別解析部２３（第１ニューラルネットワークν1）が推定してもよい。図８のステップＳ31または図１２のステップＳ41において、特定処理部２４は、最新の単語ω_ｎが文頭に位置するか否かを判定し、単語ω_ｎが文頭に位置する場合には、直前の単語ω_ｎ−１までの文に対応する登録文Ｒ1および登録文Ｒ2を特定する。

（３）前述の各形態では、登録文Ｒ1および登録文Ｒ2が挿入部Ｂを含む場合を例示したが、挿入部Ｂを含まない登録文Ｒ1および登録文Ｒ2を利用してもよい。

（４）前述の各形態では、再帰型ニューラルネットワークν11が出力する状態ベクトルＰa_ｎをニューラルネットワークν4による単語種別および文種別の推定に適用したが、単語種別および文種別の推定に適用されるデータは以上の例示に限定されない。例えば、第１ニューラルネットワークν1（具体的には活性化ユニットν13）が出力する区切データＸ_ｎ、または、全結合層ν12が出力する状態ベクトルＰb_ｎを、前述の各形態における状態ベクトルＰa_ｎの代わりに利用して、ニューラルネットワークν4が単語種別および文種別を推定してもよい。

以上の説明から理解される通り、前述の各形態で例示したニューラルネットワークν4は、単語ω_ｎ（具体的には単語ベクトルＷ_ｎ）と解析データとに応じて単語種別または文種別を推定する要素として包括的に表現される。解析データは、単語ω_ｎが文末または文頭に位置するか否かを推定した結果（例えば区切データＸ_ｎ）に対応するデータである。具体的には、状態ベクトルＰa_ｎ、区切データＸ_ｎまたは状態ベクトルＰb_ｎが解析データの好適例である。すなわち、解析データは、第１ニューラルネットワークν1による推定における途中結果（状態ベクトルＰa_ｎもしくは状態ベクトルＰb_ｎ）または最終出力（区切データＸ_ｎ）を表すデータとして包括的に表現される。状態ベクトルＰa_ｎおよび状態ベクトルＰb_ｎは、第１ニューラルネットワークν1が生成する第１状態ベクトルの好適例である。

（５）第３実施形態では、音波を伝送媒体とする音響通信で情報処理装置１００Bから端末装置２００に識別情報Ｆ（Ｆa，Ｆb）を送信したが、情報処理装置１００Bから端末装置２００に識別情報Ｆを送信するための通信方式は音響通信に限定されない。例えば、電波または赤外線等の電磁波を伝送媒体とした無線通信で情報処理装置１００Bから端末装置２００に識別情報Ｆを送信してもよい。例えば、第３実施形態における放音装置１５が無線通信用の通信機器に置換される。具体的には、Bluetooth（登録商標）またはWiFi（登録商標）等の無線通信が識別情報Ｆの送信に好適である。以上の例示から理解される通り、情報処理装置１００Bによる識別情報Ｆの送信には、移動体通信網等の通信網が介在しない近距離無線通信が好適であり、音波を伝送媒体とする音響通信と電磁波を伝送媒体とする無線通信とは、近距離無線通信の例示である。

（６）前述の各形態に係る情報処理装置１００（１００A，１００B）は、各形態での例示の通り、制御装置１１とプログラムとの協働により実現される。前述の各形態に係るプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされ得る。記録媒体は、例えば非一過性（non-transitory）の記録媒体であり、ＣＤ-ＲＯＭ等の光学式記録媒体（光ディスク）が好例であるが、半導体記録媒体または磁気記録媒体等の公知の任意の形式の記録媒体を含み得る。なお、非一過性の記録媒体とは、一過性の伝搬信号（transitory, propagating signal）を除く任意の記録媒体を含み、揮発性の記録媒体を除外するものではない。また、通信網を介した配信の形態でプログラムをコンピュータに提供することも可能である。

（７）ニューラルネットワーク（ν，ν1，ν2，ν3）は、制御装置１１（コンピュータの例示）により実現される認識モデルであり、入力Ａに応じた出力Ｂを生成する。具体的には、ニューラルネットワークは、入力Ａから出力Ｂを特定する演算を制御装置１１に実行させるプログラム（例えば人工知能ソフトウェアを構成するプログラムモジュール）と、当該演算に適用される複数の係数との組合せで実現される。複数の係数は、入力Ａと出力Ｂとを対応させた複数の教師データを利用した事前の機械学習（特に深層学習）により最適化されている。すなわち、ニューラルネットワークは、入力Ａと出力Ｂとの関係を学習した学習済モデルである。制御装置１１は、学習済の複数の係数と所定の応答関数とを適用した演算を未知の入力Ａに対して実行することで、複数の教師データから抽出される傾向（入力Ａと出力Ｂとの関係）のもとで入力Ａに対して妥当な出力Ｂを生成する。

（８）以上に例示した形態から、例えば以下の構成が把握される。

本発明の好適な態様（第１態様）に係る言語解析方法は、コンピュータにより実現される方法であって、時系列に配列された複数の単語の各々について、当該単語が文末または文頭に位置するか否かを推定し、当該単語の種別または当該単語を含む文の種別を、当該単語と、前記推定の結果に対応する解析データとに応じて推定する。以上の態様では、単語が文末または文頭に位置するか否かが推定され、当該推定の結果に対応する解析データと当該単語とに応じて当該単語の種別または文の種別が推定される。したがって、単語が文末または文頭に位置するか否かを推定しない構成（例えば単語ベクトルのみから種別を推定する構成）と比較して、単語の種別または当該単語を含む文の種別を高精度に解析することができる。

第１態様の好適例（第２態様）において、前記単語の種別または文の種別を推定した結果に応じて、利用者に提示される文を特定する。以上の態様によれば、複数の単語の時系列に対応した言語的に自然な文を利用者に提示することが可能である。

第１態様または第２態様の好適例（第３態様）では、前記単語が文末または文頭に位置するか否かを、当該単語を表す単語ベクトルを入力とする第１ニューラルネットワークにより推定する。以上の態様によれば、単語を表す単語ベクトルと当該単語が文末または文頭に位置するか否かとの関係を学習した第１ニューラルネットワークにより、単語が文末または文頭に位置するか否かを高精度に推定できるという利点がある。

第３態様の好適例（第４態様）では、当該単語の種別または当該単語を含む文の種別を、前記単語ベクトルと、前記第１ニューラルネットワークが生成する第１状態ベクトルとに応じて推定する。

第４態様の好適例（第５態様）において、前記種別の推定では、前記単語を含む文の種別を、前記単語ベクトルと前記第１状態ベクトルとを入力とする第２ニューラルネットワークにより推定し、前記単語の種別を、前記単語ベクトルと前記第２ニューラルネットワークが生成する第２状態ベクトルとを入力とする第３ニューラルネットワークにより推定する。以上の態様では、単語ベクトルと第１状態ベクトルとを入力とする第２ニューラルネットワークにより文の種別が特定され、単語ベクトルと第２ニューラルネットワークが生成する第２状態ベクトルとを入力とする第３ニューラルネットワークにより単語の種別が特定される。したがって、文の種別と単語の種別とを高精度に解析できるという前述の効果は格別に顕著である。

第５態様の好適例（第６態様）において、前記第１ニューラルネットワークと前記第２ニューラルネットワークと前記第３ニューラルネットワークとの各々は、前記複数の単語のうちの第１単語の単語ベクトルを含む入力に対して、前記第１単語の前方に位置する第２単語に関する推定を実行する。以上の態様では、第１単語の単語ベクトルを含む入力に対して、当該第１単語の前方に位置する第２単語に関する推定が実行される。したがって、単語の種別が後方の単語に依存するという現実の発話の傾向のもとで、各単語の種別を高精度に推定できるという利点がある。

第１態様から第６態様の好適例（第７態様）において、発話音声を表す音響信号に対する音声認識により前記複数の単語を特定する。以上の態様によれば、発話音声の各単語の種別または当該単語を含む文の種別を推定することが可能である。

本発明の好適な態様（第８態様）に係るプログラムは、時系列に配列された複数の単語の各々について、当該単語が文末または文頭に位置するか否かを推定する処理と、当該単語の種別または当該単語を含む文の種別を、当該単語と、前記推定の結果に対応する解析データとに応じて推定するニューラルネットワークとしてコンピュータを機能させる。以上の態様では、単語が文末または文頭に位置するか否かが推定され、当該推定の結果に対応する解析データと当該単語とに応じて当該単語の種別または文の種別が推定される。したがって、単語が文末または文頭に位置するか否かを推定しない構成（例えば単語ベクトルのみから種別を推定する構成）と比較して、単語の種別または当該単語を含む文の種別を高精度に解析することができる。

１００A，１００B…情報処理装置、１１…制御装置、１２…記憶装置、１３…収音装置、１４…表示装置、１５…放音装置、２１…音声解析部、２２…単語解析部、２３…種別解析部、２４…特定処理部、２５…信号処理部、ν…ニューラルネットワーク、ν1…第１ニューラルネットワーク、ν2…第２ニューラルネットワーク、ν3…第３ニューラルネットワーク、２００…端末装置、５１…制御装置、５２…記憶装置、５３…収音装置、５４…表示装置。

Claims

時系列に配列された複数の単語の各々について、当該単語が文末または文頭に位置するか否かを推定し、
当該単語の種別または当該単語を含む文の種別を、当該単語と、前記推定の結果に対応する解析データとに応じて推定する、
コンピュータにより実現される言語解析方法。
前記単語の種別または文の種別を推定した結果に応じて、提示装置により提示される文を特定する
請求項１の言語解析方法。
前記単語が文末または文頭に位置するか否かを、当該単語を表す単語ベクトルを入力とする第１ニューラルネットワークにより推定する
請求項１または請求項２の言語解析方法。
当該単語の種別または当該単語を含む文の種別を、前記単語ベクトルと、前記第１ニューラルネットワークが生成する第１状態ベクトルとに応じて推定する
請求項３の言語解析方法。
前記種別の推定においては、
前記単語を含む文の種別を、前記単語ベクトルと前記第１状態ベクトルとを入力とする第２ニューラルネットワークにより推定し、
前記単語の種別を、前記単語ベクトルと前記第２ニューラルネットワークが生成する第２状態ベクトルとを入力とする第３ニューラルネットワークにより推定する
請求項４の言語解析方法。
前記第１ニューラルネットワークと前記第２ニューラルネットワークと前記第３ニューラルネットワークとの各々は、前記複数の単語のうちの第１単語の単語ベクトルを含む入力に対して、前記第１単語の前方に位置する第２単語に関する推定を実行する
請求項５の言語解析方法。
発話音声を表す音響信号に対する音声認識により前記複数の単語を特定する
請求項１から請求項６の何れかの言語解析方法。
時系列に配列された複数の単語の各々について、当該単語が文末または文頭に位置するか否かを推定する処理と、
当該単語の種別または当該単語を含む文の種別を、当該単語と、前記推定の結果に対応する解析データとに応じて推定する処理と
をコンピュータに実行させるプログラム。