JP2019086958A - 言語解析方法およびプログラム - Google Patents

言語解析方法およびプログラム Download PDF

Info

Publication number
JP2019086958A
JP2019086958A JP2017213773A JP2017213773A JP2019086958A JP 2019086958 A JP2019086958 A JP 2019086958A JP 2017213773 A JP2017213773 A JP 2017213773A JP 2017213773 A JP2017213773 A JP 2017213773A JP 2019086958 A JP2019086958 A JP 2019086958A
Authority
JP
Japan
Prior art keywords
word
sentence
type
neural network
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2017213773A
Other languages
English (en)
Inventor
陽 前澤
Akira Maezawa
陽 前澤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2017213773A priority Critical patent/JP2019086958A/ja
Publication of JP2019086958A publication Critical patent/JP2019086958A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

【課題】時系列に配列された複数の単語で構成される文または各単語の種別を高精度に解析する。【解決手段】情報処理装置は、時系列に配列された複数の単語の各々について、当該単語が文末または文頭に位置するか否かを推定し、当該単語の種別または当該単語を含む文の種別を、当該単語と、前記推定の結果に対応する解析データとに応じて推定する。【選択図】なし

Description

本発明は、複数の単語を解析する技術に関する。
自然言語を解析する各種の技術が従来から提案されている。例えば特許文献1には、概念構造(積層構造)と概念表現との対応を規定した概念体系データを利用して、発話内容に含まれる概念表現を抽出し、抽出後の各概念表現の相互間における関係を特定する言語理解装置が開示されている。
特開2008−146150号公報
しかし、特許文献1の技術を含む従来の技術のもとでは、複数の単語の時系列で構成される文または各単語の種別を高精度に解析することは困難である。以上の事情を考慮して、本発明の好適な態様は、複数の単語の時系列を高精度に解析することを目的とする。
以上の課題を解決するために、本発明の好適な態様に係る言語解析方法は、時系列に配列された複数の単語の各々について、当該単語が文末または文頭に位置するか否かを推定し、当該単語の種別または当該単語を含む文の種別を、当該単語と、前記推定の結果に対応する解析データとに応じて推定する。
本発明の好適な態様に係るプログラムは、時系列に配列された複数の単語の各々について、当該単語が文末または文頭に位置するか否かを推定する処理と、当該単語の種別または当該単語を含む文の種別を、当該単語と、前記推定の結果に対応する解析データとに応じて推定する処理とをコンピュータを実行させる。
本発明の第1実施形態に係る情報処理装置の構成を示すブロック図である。 利用者による発話内容に応じた提示文の説明図である。 対訳データの説明図である。 制御装置の機能的な構成を示すブロック図である。 属性データの説明図である。 種別解析部の動作の説明図である。 種別解析部の構成を示すブロック図である。 提示文特定処理のフローチャートである。 言語解析処理のフローチャートである。 第3実施形態の情報処理装置および端末装置の構成を示すブロック図である。 第3実施形態における制御装置の機能的な構成を示すブロック図である。 第3実施形態における提示文特定処理のフローチャートである。 第3実施形態における登録文テーブルの模式図である。 第3実施形態における単語テーブルの模式図である。
<第1実施形態>
図1は、本発明の第1実施形態に係る情報処理装置100Aの構成を例示するブロック図である。図1に例示される通り、第1実施形態の情報処理装置100Aは、制御装置11と記憶装置12と収音装置13と表示装置14とを具備するコンピュータシステムで実現される。例えば携帯電話機もしくはスマートフォン等の可搬型の情報端末、またはパーソナルコンピュータ等の可搬型または据置型の情報端末が、情報処理装置100Aとして好適に利用され得る。なお、収音装置13および表示装置14が情報処理装置100Aに搭載された構成を図1では例示したが、情報処理装置100Aとは別体の収音装置13または表示装置14を情報処理装置100Aに有線または無線で接続してもよい。
収音装置13は、周囲の音響を収音し、当該音響の波形を表す音響信号Vを生成する。なお、収音装置13が生成した音響信号Vをアナログからデジタルに変換するA/D変換器の図示は便宜的に省略した。情報処理装置100Aの利用者は、第1言語(例えば日本語)の任意の文字列を収音装置13に対して発話する。収音装置13は、利用者が発話した音声の波形を表す音響信号Vを生成する。表示装置14は、制御装置11による制御のもとで各種の画像を表示する。例えば液晶表示パネルまたは有機EL(Electroluminescence)表示パネルが表示装置14として好適に採用される。
情報処理装置100Aは、利用者が発話した内容に対応した文(以下「提示文」という)を第1言語と第2言語とで表示装置14に表示する。第1言語と第2言語とは相異なる言語である。第1実施形態では、第1言語が日本語であり、第2言語が英語である場合を便宜的に想定する。利用者が第1言語で「東京から大阪までは3万円です」と発話した場合、図2に例示される通り、利用者による発話と同様の趣旨を第1言語で表現した「お値段は3万円です」という提示文Q1と、当該提示文Q1を第2言語で表現した「The total amount is 30,000 yen.」という提示文Q2とが表示装置14に並列に表示される。すなわち、利用者による発話と趣旨は同様であるが表現は相違する提示文Q(Q1,Q2)が提示される。なお、以上の例示では日本語と英語との組合せを例示したが、第1言語と第2言語との組合せは任意である。
制御装置11は、例えばCPU(Central Processing Unit)等の処理回路であり、情報処理装置100Aを構成する各要素(記憶装置12,収音装置13および表示装置14)を統括的に制御する。記憶装置12は、例えば磁気記録媒体もしくは半導体記録媒体等の公知の記録媒体、または、複数種の記録媒体の組合せで構成され、制御装置11が実行するプログラムと制御装置11が使用する各種のデータとを記憶する。なお、情報処理装置100Aとは別体の記憶装置12(例えばクラウドストレージ)を用意し、移動体通信網またはインターネット等の通信網を介して制御装置11が記憶装置12に対する書込および読出を実行してもよい。すなわち、記憶装置12は情報処理装置100Aから省略され得る。
第1実施形態の記憶装置12は、図3に例示される通り、相異なる発話内容に対応する複数の対訳データDを記憶する。複数の対訳データDの各々は、利用者による発話が想定される文と同様の趣旨の文(以下「登録文」という)を表すデータである。具体的には、任意の1個の対訳データDは、利用者による発話が想定される文と同様の趣旨を第1言語で表現した登録文R1と、登録文R1の内容を第2言語で表現した登録文R2(すなわち登録文R1の対訳文)とを含む。すなわち、対訳データDは、同様の趣旨を別言語で表現した登録文R1と登録文R2とを相互に対応付けたデータである。
登録文R1および登録文R2の各々は、図3に例示される通り1個以上の挿入部Bを含む。挿入部Bは、任意の単語が挿入される空欄である。登録文R1および登録文R2の各々の挿入部Bに可変の単語が挿入されることで提示文Q(Q1,Q2)が構成される。すなわち、登録文R1および登録文R2の各々は、定型的な文字列(すなわちテンプレート)である。図3に例示される通り、登録文R1および登録文R2の各々については、挿入部Bに挿入される単語の種別(以下「単語種別」という)が挿入部B毎に設定される。例えば図3には、単語種別が「値段」に設定された挿入部Bを含む第1言語の登録文R1と第2言語の登録文R2とが例示されている。
記憶装置12には、文(sentence)に関する相異なる種別(以下「文種別」という)毎に対訳データDが記憶される。文種別は、意味または趣旨の区別(すなわち内容的な分類)である。例えば、図3に例示される通り、「会計」の文種別については、「お値段は{値段}です」という第1言語の登録文R1と「The total amount is {値段}」という第2言語の登録文R2とを含む対訳データDが記憶される。第1実施形態の情報処理装置100Aは、利用者による発話内容から文種別を特定し、当該文種別について記憶装置12に記憶された対訳データDの登録文R(R1,R2)から提示文Q(Q1,Q2)を生成および表示する。
図4は、制御装置11の機能的な構成を示すブロック図である。図4に例示される通り、制御装置11は、記憶装置12に記憶されたプログラムを実行することで、利用者による発話内容に対応した提示文Qを特定するための複数の機能(音声解析部21,単語解析部22,種別解析部23および特定処理部24)を実現する。なお、複数の装置の集合(すなわちシステム)で制御装置11の機能を実現してもよいし、制御装置11の機能の一部または全部を専用の電子回路で実現してもよい。
音声解析部21は、利用者が発話した文字列(以下「発話文字列」という)を構成する複数(N個)の単語ω〜ωを特定する。具体的には、音声解析部21は、収音装置13が生成する音響信号Vに対する音声認識により発話文字列を特定し、形態素解析等の自然言語処理により発話文字列をN個の単語ω〜ωに区分する。発話文字列は1個以上の文で構成される。なお、音響信号Vに対する音声認識には、例えばHMM(Hidden Markov Model)等の音響モデルと言語的な制約を示す言語モデルとを利用した公知の認識処理が任意に採用され得る。なお、情報処理装置100Aが通信可能なサーバ装置に音声解析部21を設置し、情報処理装置100Aが当該サーバ装置から各単語ωを取得してもよい。
単語解析部22は、発話文字列を構成するN個の単語ω〜ωの各々について、当該単語ω(n=1〜N)を表す単語ベクトルWを生成する。単語ベクトルWは、言語空間(意味空間)における単語ωの位置を表すベクトルである。単語ベクトルWを特定する方法は任意であるが、例えばニューラルネットワーク等の学習済モデル(Word2Vec)を利用して各単語ωを200次元程度の単語ベクトルWで表現する解析処理(Tomas Mikolov et al."Efficient Estimation of Word Representations in Vector Space," arXiv:1301.3781 [cs.CL], 2013)が好適に利用される。なお、情報処理装置100Aが通信可能なサーバ装置に単語解析部22を設置し、情報処理装置100Aが当該サーバ装置から単語ベクトルWを取得してもよい。
種別解析部23は、時系列に配列されたN個の単語ω〜ωの各々について、当該単語ωの属性を表す属性データAを生成する。図5に例示される通り、任意の1個の属性データAは、区切データXと文種別データYと単語種別データZとを含む。
区切データXは、発話文字列の各単語ωが文末に位置するか否かを表す。具体的には、区切データXは、要素xおよび要素xで構成される。単語ωが文末に位置する場合に要素xが「1」に設定されるとともに要素xが「0」に設定され、単語ωが文末以外(文頭または文中)に位置する場合に要素xが「0」に設定されるとともに要素xが「1」に設定される。なお、文末に位置するか否かを1ビットで表すフラグを区切データXとして生成してもよい。
文種別データYは、単語ωを含む文の文種別を表す。具体的には、文種別データYは、(M+1)個の要素y〜yM+1で構成される(M+1)次元のベクトルである。自然数M(図5の例ではM=3)は、文種別の総数(すなわち対訳データDの総数)に相当する。具体的には、単語ωを含む文がM個の文種別のうち第m番目の文種別に該当する場合、文種別データYにおける第m番目の要素yが「1」に設定され、かつ、第m番目以外の要素が「0」に設定される。なお、単語ωを含む文がM個の文種別の何れにも該当しない場合、文種別データYにおける第(M+1)番目の要素yM+1が「1」に設定され、第(M+1)番目以外の要素y〜yが「0」に設定される。なお、文種別データYの形式は任意であり、例えば各文種別に一意に付与された識別番号を文種別データYとして生成してもよい。
単語種別データZは、単語ωの単語種別を表す。具体的には、単語種別データZは、(K+1)個の要素z〜zK+1で構成される(K+1)次元のベクトルである。自然数K(図5の例ではK=5)は、単語種別の総数に相当する。具体的には、単語ωがK個の単語種別のうち第k番目の単語種別に該当する場合、単語種別データZにおける第k番目の要素zが「1」に設定され、かつ、第k番目以外の要素が「0」に設定される。なお、単語ωがK個の単語種別の何れにも該当しない場合、単語種別データZにおける第(K+1)番目の要素zK+1が「1」に設定され、第(K+1)番目以外の要素z〜zが「0」に設定される。なお、単語種別データZの形式は任意であり、例えば各単語種別に一意に付与された識別番号を単語種別データZとして生成してもよい。
種別解析部23による属性データAの生成は単語ω毎に実行される。すなわち、種別解析部23は、図6に例示される通り、時系列に配列されたN個の単語ω〜ωの各々について、当該単語ωの属性を表す属性データAを生成する。
図7は、種別解析部23の具体的な構成を例示するブロック図である。第1実施形態の種別解析部23はニューラルネットワークνで構成される。ニューラルネットワークνは、単語ベクトルWと属性データAとを対応させた複数の教師データを利用した機械学習(特に深層学習)により単語ベクトルWと属性データAとの関係を学習した学習済モデルである。すなわち、単語ベクトルWを付与したときに生成される属性データAと、教師データが当該単語ベクトルWに対応させた属性データAとの相違を示す目的関数(例えば相互エントロピ)を最小化する機械学習により、ニューラルネットワークνを規定する複数の係数が設定される。したがって、ニューラルネットワークνは、複数の教師データから抽出される傾向(単語ベクトルWと属性データAとの関係)のもとで単語ベクトルWに対して妥当な属性データAを出力する。図7に例示される通り、第1実施形態のニューラルネットワークνは、第1ニューラルネットワークν1と第2ニューラルネットワークν2と第3ニューラルネットワークν3とを含んで構成される。
第1ニューラルネットワークν1は、単語ベクトルWと区切データXとの関係を学習した学習済モデルであり、任意の1個の単語ベクトルWを入力として区切データXを出力する。すなわち、第1ニューラルネットワークν1は、時系列に配列された各単語ωについて、当該単語ωが文末に位置するか否かを推定する。
図7に例示される通り、第1ニューラルネットワークν1は、再帰型ニューラルネットワーク(RNN:Recurrent Neural Network)ν11と全結合層ν12と活性化ユニットν13とを含んで構成される。再帰型ニューラルネットワークν11および全結合層ν12に適用される複数の係数が機械学習により設定される。
再帰型ニューラルネットワークν11は、単語ベクトルWに応じた状態ベクトルPa(第1状態ベクトルの例示)を出力する。例えば長期短期記憶(LSTM:Long Short Term Memory)が再帰型ニューラルネットワークν11として好適である。全結合層ν12は、状態ベクトルPaに応じた状態ベクトルPbを出力する。活性化ユニットν13は、全結合層ν12が出力する状態ベクトルPbに応じた区切データXを生成する。活性化ユニットν13で使用される活性化関数としては例えばSoftmax関数が好適である。
第1ニューラルネットワークν1が生成する状態ベクトルPaを単語ベクトルWに連結した状態ベクトルUa(第2状態ベクトルの例示)が第2ニューラルネットワークν2に入力される。第2ニューラルネットワークν2は、状態ベクトルUaと文種別データYとの関係を学習した学習済モデルであり、任意の1個の状態ベクトルUa(単語ベクトルWおよび状態ベクトルPa)を入力として文種別データYを出力する。すなわち、第2ニューラルネットワークν2は、単語ωを含む文の文種別を状態ベクトルUaから推定する。
以上の通り、第2ニューラルネットワークν2による文種別データYの生成には単語ベクトルWが反映される。したがって、特定の単語(例えば「です」「ます」等)の前後で文種別が変更され易いという傾向のもとで文種別データYを生成することが可能である。さらに、第1実施形態では、区切データXを生成する過程で第1ニューラルネットワークν1が生成する状態ベクトルPaが、第2ニューラルネットワークν2による文種別データYの生成に利用される。したがって、文末の直後には文種別が変更され易く、文末以外では文種別が維持され易いという傾向のもとで、単語ベクトルWに応じた文種別データYを生成することが可能である。
図7に例示される通り、第2ニューラルネットワークν2は、活性化ユニットν21と再帰型ニューラルネットワークν22と全結合層ν23と活性化ユニットν24とを含んで構成される。再帰型ニューラルネットワークν22および全結合層ν23に適用される複数の係数が機械学習により設定される。
活性化ユニットν21は、状態ベクトルUaに応じた状態ベクトルUbを出力する。活性化ユニットν21で使用される活性化関数としては例えばLeaky ReLU(Rectified Linear Unit)が好適である。再帰型ニューラルネットワークν22は状態ベクトルUbに応じた状態ベクトルUcを生成し、全結合層ν23は状態ベクトルUcに応じた状態ベクトルUdを生成する。再帰型ニューラルネットワークν22としては例えばLSTMが好適である。活性化ユニットν24は、全結合層ν23が出力する状態ベクトルUdに応じた文種別データYを生成する。活性化ユニットν24で使用される活性化関数としては例えばSoftmax関数が好適である。
第2ニューラルネットワークν2が生成する状態ベクトルUcを単語ベクトルWに連結した状態ベクトルVaが第3ニューラルネットワークν3に入力される。第3ニューラルネットワークν3は、状態ベクトルVaと単語種別データZとの関係を学習した学習済モデルであり、任意の1個の状態ベクトルVa(単語ベクトルWおよび状態ベクトルUc)を入力として単語種別データZを出力する。すなわち、第3ニューラルネットワークν3は、単語ωの単語種別を状態ベクトルVaから推定する。
以上の通り、単語ベクトルWに加えて、文種別データYを生成する過程で第2ニューラルネットワークν2が生成する状態ベクトルUcが、第3ニューラルネットワークν3による単語種別データZの生成に利用される。したがって、単語ωの単語種別が文種別に応じて変化するという傾向のもとで、単語ωの単語種別データZを生成することが可能である。
図7に例示される通り、第3ニューラルネットワークν3は、活性化ユニットν31と再帰型ニューラルネットワークν32と全結合層ν33と活性化ユニットν34とを含んで構成される。再帰型ニューラルネットワークν32および全結合層ν33に適用される複数の係数が機械学習により設定される。
活性化ユニットν31は、状態ベクトルVaに応じた状態ベクトルVbを出力する。活性化ユニットν31で使用される活性化関数としては例えばLeaky ReLUが好適である。再帰型ニューラルネットワークν32は状態ベクトルVbに応じた状態ベクトルVcを生成し、全結合層ν33は状態ベクトルVcに応じた状態ベクトルVdを生成する。再帰型ニューラルネットワークν32としては例えばLSTMが好適である。活性化ユニットν34は、全結合層ν33が出力する状態ベクトルVdに応じた単語種別データZを生成する。活性化ユニットν34で使用される活性化関数としては例えばSoftmax関数が好適である。
以上の説明から理解される通り、第2ニューラルネットワークν2および第3ニューラルネットワークν3は、単語ωの単語ベクトルWと第1ニューラルネットワークν1が生成する状態ベクトルPaとに応じて当該単語ωの単語種別および当該文の文種別を推定するニューラルネットワークν4として機能する。第1実施形態における種別解析部23の具体的な構成は以上の通りである。
図4の特定処理部24は、種別解析部23が各単語ωについて特定した属性データAから提示文Q(Q1,Q2)を特定する。図8は、特定処理部24が属性データAから提示文Qを生成する処理(以下「提示文特定処理S3」という)のフローチャートである。例えば種別解析部23が属性データAを生成するたびに(すなわち単語ω毎に)、図8の提示文特定処理S3が実行される。
提示文特定処理S3を開始すると、特定処理部24は、種別解析部23が生成した最新の属性データAにおける区切データXを参照することで、単語ωが文末に位置するか否かを判定する(S31)。単語ωが文末に位置しない場合(S31:NO)、特定処理部24は提示文特定処理S3を終了する。他方、単語ωが文末に位置する場合(S31:YES)、特定処理部24は、当該単語ωを末尾に含む発話文字列に対応する提示文Q(Q1,Q2)を特定および提示するための以下の処理(S32〜S36)を実行する。すなわち、発話文字列の文末の単語ωを音声解析部21が特定するたびに提示文Qが特定される。
特定処理部24は、最新の属性データAの文種別データYが示す文種別に対応した対訳データD(登録文R1および登録文R2)を記憶装置12から取得する(S32)。すなわち、利用者による発話内容(発話文字列)と同様の趣旨を第1言語で表現した登録文R1と第2言語で表現した登録文R2とが特定される。
特定処理部24は、ステップS32で特定した第1言語の登録文R1の挿入部Bに、当該挿入部Bの単語種別と同じ単語種別が種別解析部23により推定された単語ω(以下「推定単語ωa」という)を挿入することで、第1言語の提示文Q1を生成する(S33)。例えば、登録文R1に含まれる挿入部Bの単語種別が「値段」である場合、特定処理部24は、図6の例示において単語種別データZが「値段」を単語種別として示す「3万円」という単語ωを推定単語ωaとして当該挿入部Bに挿入することで、図2の例示の通り「お値段は3万円です」という提示文Q1が生成される。
特定処理部24は、第1言語の推定単語ωaを第2言語で表現した単語(以下「翻訳単語ωb」という)を特定する(S34)。例えば、第1言語の単語と第2言語の単語とを相互に対応させた辞書データを参照することで、特定処理部24は翻訳単語ωbを特定する。例えば、第1言語の推定単語ωaが「3万円」である場合、「30,000yen」という第2言語の翻訳単語ωbが特定される。
特定処理部24は、ステップS32で特定した第2言語の登録文R2の挿入部Bに翻訳単語ωbを挿入することで、第2言語の提示文Q2を生成する(S35)。例えば、「30,000yen」という翻訳単語ωbを登録文R2の挿入部Bに挿入することで、図2の例示の通り、「The total amount is 30,000 yen.」という第2言語の提示文Q2が生成される。特定処理部24は、以上の処理で生成した第1言語の提示文Q1と第2言語の提示文Q2とを、図2の例示のように表示装置14に表示させる(S36)。以上が提示文特定処理S3の具体例である。
図9は、第1実施形態の制御装置11(単語解析部22,種別解析部23および特定処理部24)が実行する処理(以下「言語解析処理」という)を例示するフローチャートである。音声解析部21が音響信号Vに対する音声認識で単語ωを特定するたびに図9の言語解析処理が実行される。言語解析処理を開始すると、単語解析部22は、単語ωを表す単語ベクトルWを生成する(S1)。
種別解析部23は、単語解析部22が生成した単語ベクトルWを入力とするニューラルネットワークνにより属性データAを生成する(S21〜S23)。具体的には、種別解析部23は、単語ωが文末に位置するか否かを示す区切データXを、単語ベクトルWを入力とする第1ニューラルネットワークν1により生成する(S21)。また、種別解析部23は、状態ベクトルUa(単語ベクトルWおよび状態ベクトルPa)を入力とする第2ニューラルネットワークν2により、単語ωを含む文の文種別を示す文種別データYを生成する(S22)。種別解析部23は、状態ベクトルVa(単語ベクトルWおよび状態ベクトルUc)を入力とする第3ニューラルネットワークν3により、単語ωの単語種別を示す単語種別データZを生成する。以上の例示の通り、区切データXと文種別データYと単語種別データZとを含む属性データAが単語ωについて生成される。
以上の処理により単語ωの属性データAが生成されると、特定処理部24は、図8に例示した提示文特定処理S3(S31〜S35)を実行することで、当該属性データAに応じた第1言語の提示文Q1および第2言語の提示文Q2を生成して表示装置14に表示させる。
以上に説明した通り、第1実施形態では、単語ωが文末に位置するか否かが第1ニューラルネットワークν1により推定され、第1ニューラルネットワークν1による推定の過程で生成される状態ベクトルPaを入力とするニューラルネットワークν4により文種別および単語種別が推定される。すなわち、単語ωが文末に位置するか否かが、ニューラルネットワークν4による文種別および単語種別の推定に反映される。したがって、第1ニューラルネットワークν1とは独立に文種別および単語種別を推定する構成(例えばニューラルネットワークν4が単語ベクトルWのみから種別を推定する構成)と比較して、各単語ωの単語種別と当該単語ωを含む文の文種別を高精度に解析することが可能である。
なお、利用者による発話内容を提示する方法としては、例えば、音響信号Vに対する音声認識で特定された第1言語の発話文字列と、当該発話文字列に対する機械翻訳で生成された第2言語の翻訳文とを表示する構成(以下「対比例」という)も想定される。しかし、対比例では、音声認識における誤認識または機械翻訳における誤翻訳により、利用者の発話内容を適切に表す文字列が表示されない可能性がある。第1実施形態では、記憶装置12に事前に用意された複数の登録文R(R1,R2)の何れかを含む提示文Qが表示されるから、音響信号Vに対する音声認識に誤認識が発生した場合でも、言語的に適正な提示文Qを表示できるという利点がある。
<第2実施形態>
本発明の第2実施形態について説明する。なお、以下に例示する各態様において機能または作用が第1実施形態と同様である要素については、第1実施形態の説明で使用した符号を流用して各々の詳細な説明を適宜に省略する。
第1実施形態では、単語ωの単語ベクトルWとその単語ω自体の属性データAとを対応させた複数の教師データをニューラルネットワークνの機械学習に利用した。しかし、例えば日本語の発話においては、発話文字列の1個の単語の単語種別または文種別が、当該単語の後方に位置する他の単語に依存するという傾向がある。例えば、「東京から京都まで」という発話文字列を仮定する。「東京」という単語が発音された時点では、当該単語の単語種別が「出発地」および「到着地」の何れに該当するのかを確定できず、「から」または「まで」という単語が観測された段階で、「東京」の単語種別が「出発地」であることが判明する。
以上の傾向を考慮して、第2実施形態では、機械学習用の各種の文字列における単語ωの単語ベクトルWと、当該文字列において単語ωからd個(dは所定の自然数)だけ前方の単語ωn−dの属性データAn−dとを対応させた教師データを、ニューラルネットワークνの機械学習に利用する。
したがって、学習済のニューラルネットワークνは、発話文字列を構成する各単語ω(第1単語の例示)の単語ベクトルWを入力として、発話文字列内で当該単語ωからd個だけ前方の単語ωn−d(第2単語の例示)に対して妥当な属性データAn−dを出力する。例えば、第1ニューラルネットワークν1は、単語ベクトルWを入力として区切データXn−dを生成する。第2ニューラルネットワークν2は、単語ベクトルWを入力として文種別データYn−dを生成する。第3ニューラルネットワークν3は、単語ベクトルWを入力として単語種別データZn−dを生成する。
以上の説明から理解される通り、第2実施形態では、第1ニューラルネットワークν1と第2ニューラルネットワークν2と第3ニューラルネットワークν3との各々は、各単語ω(第1単語の例示)の単語ベクトルWを含む入力に対して、発話文字列において当該単語ωの前方に位置する単語ωn−d(第2単語の例示)に関する推定を実行する。具体的には、第1ニューラルネットワークν1は、単語ωの単語ベクトルWを入力として、前方の単語ωn−dが文末に位置するか否かを推定する。第2ニューラルネットワークν2は、単語ωの単語ベクトルWを入力として、前方の単語ωn−dを含む文の文種別を推定し、第3ニューラルネットワークν3は、単語ωの単語ベクトルWを入力として、前方の単語ωn−dの単語種別を推定する。
第2実施形態においても第1実施形態と同様の効果が実現される。また、第2実施形態では、ニューラルネットワークνが、各単語ωの単語ベクトルWを含む入力に対して当該単語ωの前方の単語ωn−dに関する推定を実行する。したがって、各単語の単語種別または文種別が後方の単語に依存するという現実の発話の傾向のもとで各単語の単語種別または文種別を高精度に推定できるという利点がある。
<第3実施形態>
図10は、第3実施形態における情報処理装置100Bの構成を示すブロック図である。図10に例示される通り、第3実施形態の情報処理装置100Bは、制御装置11と記憶装置12と収音装置13と放音装置15とを具備するコンピュータシステムで実現される。例えば携帯電話機もしくはスマートフォン等の可搬型の情報端末、またはパーソナルコンピュータ等の可搬型または据置型の情報端末が、情報処理装置100Bとして好適に利用され得る。
第1実施形態と同様に、制御装置11は、例えばCPU等の処理回路であり、記憶装置12は、制御装置11が実行するプログラムと制御装置11が使用する各種のデータとを記憶する各種の記録媒体である。収音装置13は、第1実施形態と同様に、利用者が発話した音声の波形を表す音響信号Vを生成する。
放音装置15(例えばスピーカ装置)は、制御装置11から供給される音響信号Gaに応じた音波を放射する。なお、制御装置11が生成した音響信号Gaをデジタルからアナログに変換するD/A変換器の図示は便宜的に省略した。また、情報処理装置100Bに放音装置15が搭載された構成を図10では例示したが、情報処理装置100Bとは別体の放音装置15を情報処理装置100Bに有線または無線で接続してもよい。
図11は、第3実施形態における制御装置11の機能的な構成を示すブロック図である。図11に例示される通り、第3実施形態の制御装置11は、第1実施形態と同様の要素(音声解析部21,単語解析部22,種別解析部23および特定処理部24)に加えて信号処理部25として機能する。なお、制御装置11とは別体で構成された信号処理回路により信号処理部25を実現してもよい。
音声解析部21、単語解析部22および種別解析部23の機能および動作は第1実施形態と同様である。なお、各単語ωの単語ベクトルWの入力に対して前方の単語ωn−dに関する推定を実行する第2実施形態の構成を、第3実施形態の種別解析部23に同様に適用してもよい。
特定処理部24は、種別解析部23が各単語ωについて特定した属性データAから提示文Qを特定する。具体的には、第3実施形態の特定処理部24は、図8に例示した提示文特定処理S3に代えて、図12の提示文特定処理S4を実行する。例えば種別解析部23が属性データAを生成するたびに(すなわち単語ω毎に)、図12の提示文特定処理S4が実行される。
特定処理部24は、第1実施形態と同様に、単語ωが文末に位置するか否かを判定する(S41)。単語ωが文末に位置しない場合(S41:NO)、特定処理部24は提示文特定処理S4を終了する。他方、単語ωが文末に位置する場合(S41:YES)、特定処理部24は、当該単語ωを末尾に含む発話文字列に対応する提示文Qを特定するための以下の処理(S42,S43)を実行する。すなわち、発話文字列の文末の単語ωを音声解析部21が特定するたびに提示文Qが特定される。
特定処理部24は、最新の属性データAの文種別データYが示す文種別の識別情報Faを特定する(S42)。識別情報Faは、文種別を識別するための符号である。例えば文種別データY自体を識別情報Faとして利用してもよいし、文種別データYに対応する符号列を識別情報Faとして利用してもよい。なお、登録文Rは文種別毎に用意されるから、識別情報Faは、登録文Rを識別するための符号とも換言され得る。
特定処理部24は、ステップS42の挿入部Bに挿入される推定単語ωaの識別情報Fbを特定する(S43)。推定単語ωaは、第1実施形態と同様に、登録文Rにおける挿入部Bの単語種別と同じ単語種別が種別解析部23により推定された単語ωである。識別情報Fbは、推定単語ωaを識別するための符号である。例えば単語毎に識別情報Fbが登録されたテーブルを参照して、特定処理部24は推定単語ωaの識別情報Fbを特定する。第3実施形態における提示文特定処理S4の具体例は以上の通りである。
図11の信号処理部25は、特定処理部24が生成した識別情報Faおよび識別情報Fbを音響成分として表す音響信号Gaを生成する。具体的には、信号処理部25は、識別情報Faおよび識別情報Fbに対する各種の変調処理(例えば振幅変調、周波数変調または拡散変調)により音響信号Gaを生成する。識別情報Faおよび識別情報Fbを表す音響成分の周波数帯域は、人間が通常の環境で聴取する音響の周波数帯域を上回る範囲(例えば18kHz以上かつ20kHz以下)である。
第3実施形態の放音装置15は、信号処理部25が生成した音響信号Gaが表す音波を放射する。すなわち、放音装置15は、空気振動としての音波を伝送媒体とした音響通信により識別情報Faおよび識別情報Fbを周囲に送信する送信機としても機能する。なお、収音装置13が生成した音響信号Vと信号処理部25が生成した音響信号Gaとを混合してから放音装置15に供給してもよい。
情報処理装置100Bから音響通信により送信された識別情報Faおよび識別情報Fbは、図10の端末装置200により受信される。図10に例示される通り、端末装置200は、制御装置51と記憶装置52と収音装置53と表示装置54とを具備する。例えば携帯電話機もしくはスマートフォン等の可搬型の情報端末、またはパーソナルコンピュータ等の可搬型または据置型の情報端末が、端末装置200として好適に利用され得る。
収音装置53は、周囲の音響を収音する。具体的には、収音装置53は、情報処理装置100Bの放音装置15が再生する音響を収音し、当該音響の波形を表す音響信号Gbを生成する。音響信号Gbは、識別情報Faおよび識別情報Fbの音響成分を含む。すなわち、第3実施形態の収音装置53は、空気振動としての音波を伝送媒体とする音響通信で識別情報Faおよび識別情報Fbを受信する受信機として機能する。なお、収音装置53が生成した音響信号Gbをアナログからデジタルに変換するA/D変換器の図示は便宜的に省略した。表示装置54は、例えば液晶表示パネルまたは有機EL表示パネルで構成され、制御装置51による制御のもとで各種の画像を表示する。
制御装置51は、例えばCPU等の処理回路で構成され、端末装置200の各要素を統括的に制御する。記憶装置52は、制御装置51が実行するプログラムと制御装置51が使用する各種のデータとを記憶する。例えば半導体記録媒体もしくは磁気記録媒体等の公知の記録媒体、または複数種の記録媒体の組合せが、記憶装置52として任意に利用される。
記憶装置52は、登録文テーブルT1と単語テーブルT2とを記憶する。登録文テーブルT1は、図13に例示される通り、第1言語の登録文R1と第2言語の登録文R2とを識別情報Fa毎に含むデータテーブルである。他方、単語テーブルT2は、図14に例示される通り、推定単語ωaと翻訳単語ωbとを識別情報Fb毎に含むデータテーブルである。前述の通り、登録文R2は、登録文R1を第2言語で表現した文字列であり、翻訳単語ωbは、推定単語ωaを第2言語で表現した単語である。
制御装置51は、収音装置53が生成した音響信号Gbから識別情報Faおよび識別情報Fbを抽出する。具体的には、制御装置51は、音響信号Gbのうち識別情報Faおよび識別情報Fbの音響成分を含む周波数帯域を強調するフィルタ処理と、信号処理部25による変調処理に対応した復調処理とを実行することで、音響信号Gbから識別情報Faおよび識別情報Fbを抽出する。
制御装置51は、識別情報Faに対応する登録文R1および登録文R2を登録文テーブルT1から特定し、識別情報Fbに対応する推定単語ωaおよび翻訳単語ωbを単語テーブルT2から特定する。そして、制御装置51は、登録文R1の挿入部Bに推定単語ωaを挿入した第1言語の提示文Q1と、登録文R2の挿入部Bに翻訳単語ωbを挿入した第2言語の提示文Q2とを生成して表示装置54に表示させる。以上の説明から理解される通り、第3実施形態では、図2に例示した画像が端末装置200の表示装置54に表示される。
第3実施形態においても第1実施形態と同様の効果が実現される。また、第3実施形態では、識別情報Faおよび識別情報Fbが情報処理装置100Bから端末装置200に送信されるから、提示文Q1および提示文Q2を端末装置200において表示させることが可能である。したがって、交通施設や商業施設等の各種の施設の従業者が情報処理装置100Bを使用することで、当該施設に関する案内を施設内の各端末装置200に提供できるという利点がある。
<変形例>
以上に例示した各態様に付加される具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2個以上の態様を、相互に矛盾しない範囲で適宜に併合してもよい。
(1)前述の各形態では、第1言語の提示文Q1と第2言語の提示文Q2とを表示したが、提示文Q1および提示文Q2の一方のみを表示してもよい。また、第1言語の提示文Q1に対する機械翻訳で第2言語の提示文Q2を生成してもよい。提示文Q1または提示文Q2を発音した音声をスピーカ等の放音装置により再生してもよい。提示文Q1または提示文Q2の音声は、例えば各種の音声合成技術により生成される。以上の説明から理解される通り、提示文Q1または提示文Q2は、提示装置により提示される文として包括的に表現される。提示文Q1または提示文Q2を表示する表示装置(14,54)および提示文Q1または提示文Q2の音声を再生する放音装置は、提示装置の好適例である。
(2)前述の各形態では、各単語ωが文末に位置するか否かを種別解析部23が推定したが、各単語ωが文頭に位置するか否かを種別解析部23(第1ニューラルネットワークν1)が推定してもよい。図8のステップS31または図12のステップS41において、特定処理部24は、最新の単語ωが文頭に位置するか否かを判定し、単語ωが文頭に位置する場合には、直前の単語ωn−1までの文に対応する登録文R1および登録文R2を特定する。
(3)前述の各形態では、登録文R1および登録文R2が挿入部Bを含む場合を例示したが、挿入部Bを含まない登録文R1および登録文R2を利用してもよい。
(4)前述の各形態では、再帰型ニューラルネットワークν11が出力する状態ベクトルPaをニューラルネットワークν4による単語種別および文種別の推定に適用したが、単語種別および文種別の推定に適用されるデータは以上の例示に限定されない。例えば、第1ニューラルネットワークν1(具体的には活性化ユニットν13)が出力する区切データX、または、全結合層ν12が出力する状態ベクトルPbを、前述の各形態における状態ベクトルPaの代わりに利用して、ニューラルネットワークν4が単語種別および文種別を推定してもよい。
以上の説明から理解される通り、前述の各形態で例示したニューラルネットワークν4は、単語ω(具体的には単語ベクトルW)と解析データとに応じて単語種別または文種別を推定する要素として包括的に表現される。解析データは、単語ωが文末または文頭に位置するか否かを推定した結果(例えば区切データX)に対応するデータである。具体的には、状態ベクトルPa、区切データXまたは状態ベクトルPbが解析データの好適例である。すなわち、解析データは、第1ニューラルネットワークν1による推定における途中結果(状態ベクトルPaもしくは状態ベクトルPb)または最終出力(区切データX)を表すデータとして包括的に表現される。状態ベクトルPaおよび状態ベクトルPbは、第1ニューラルネットワークν1が生成する第1状態ベクトルの好適例である。
(5)第3実施形態では、音波を伝送媒体とする音響通信で情報処理装置100Bから端末装置200に識別情報F(Fa,Fb)を送信したが、情報処理装置100Bから端末装置200に識別情報Fを送信するための通信方式は音響通信に限定されない。例えば、電波または赤外線等の電磁波を伝送媒体とした無線通信で情報処理装置100Bから端末装置200に識別情報Fを送信してもよい。例えば、第3実施形態における放音装置15が無線通信用の通信機器に置換される。具体的には、Bluetooth(登録商標)またはWiFi(登録商標)等の無線通信が識別情報Fの送信に好適である。以上の例示から理解される通り、情報処理装置100Bによる識別情報Fの送信には、移動体通信網等の通信網が介在しない近距離無線通信が好適であり、音波を伝送媒体とする音響通信と電磁波を伝送媒体とする無線通信とは、近距離無線通信の例示である。
(6)前述の各形態に係る情報処理装置100(100A,100B)は、各形態での例示の通り、制御装置11とプログラムとの協働により実現される。前述の各形態に係るプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされ得る。記録媒体は、例えば非一過性(non-transitory)の記録媒体であり、CD-ROM等の光学式記録媒体(光ディスク)が好例であるが、半導体記録媒体または磁気記録媒体等の公知の任意の形式の記録媒体を含み得る。なお、非一過性の記録媒体とは、一過性の伝搬信号(transitory, propagating signal)を除く任意の記録媒体を含み、揮発性の記録媒体を除外するものではない。また、通信網を介した配信の形態でプログラムをコンピュータに提供することも可能である。
(7)ニューラルネットワーク(ν,ν1,ν2,ν3)は、制御装置11(コンピュータの例示)により実現される認識モデルであり、入力Aに応じた出力Bを生成する。具体的には、ニューラルネットワークは、入力Aから出力Bを特定する演算を制御装置11に実行させるプログラム(例えば人工知能ソフトウェアを構成するプログラムモジュール)と、当該演算に適用される複数の係数との組合せで実現される。複数の係数は、入力Aと出力Bとを対応させた複数の教師データを利用した事前の機械学習(特に深層学習)により最適化されている。すなわち、ニューラルネットワークは、入力Aと出力Bとの関係を学習した学習済モデルである。制御装置11は、学習済の複数の係数と所定の応答関数とを適用した演算を未知の入力Aに対して実行することで、複数の教師データから抽出される傾向(入力Aと出力Bとの関係)のもとで入力Aに対して妥当な出力Bを生成する。
(8)以上に例示した形態から、例えば以下の構成が把握される。
本発明の好適な態様(第1態様)に係る言語解析方法は、コンピュータにより実現される方法であって、時系列に配列された複数の単語の各々について、当該単語が文末または文頭に位置するか否かを推定し、当該単語の種別または当該単語を含む文の種別を、当該単語と、前記推定の結果に対応する解析データとに応じて推定する。以上の態様では、単語が文末または文頭に位置するか否かが推定され、当該推定の結果に対応する解析データと当該単語とに応じて当該単語の種別または文の種別が推定される。したがって、単語が文末または文頭に位置するか否かを推定しない構成(例えば単語ベクトルのみから種別を推定する構成)と比較して、単語の種別または当該単語を含む文の種別を高精度に解析することができる。
第1態様の好適例(第2態様)において、前記単語の種別または文の種別を推定した結果に応じて、利用者に提示される文を特定する。以上の態様によれば、複数の単語の時系列に対応した言語的に自然な文を利用者に提示することが可能である。
第1態様または第2態様の好適例(第3態様)では、前記単語が文末または文頭に位置するか否かを、当該単語を表す単語ベクトルを入力とする第1ニューラルネットワークにより推定する。以上の態様によれば、単語を表す単語ベクトルと当該単語が文末または文頭に位置するか否かとの関係を学習した第1ニューラルネットワークにより、単語が文末または文頭に位置するか否かを高精度に推定できるという利点がある。
第3態様の好適例(第4態様)では、当該単語の種別または当該単語を含む文の種別を、前記単語ベクトルと、前記第1ニューラルネットワークが生成する第1状態ベクトルとに応じて推定する。
第4態様の好適例(第5態様)において、前記種別の推定では、前記単語を含む文の種別を、前記単語ベクトルと前記第1状態ベクトルとを入力とする第2ニューラルネットワークにより推定し、前記単語の種別を、前記単語ベクトルと前記第2ニューラルネットワークが生成する第2状態ベクトルとを入力とする第3ニューラルネットワークにより推定する。以上の態様では、単語ベクトルと第1状態ベクトルとを入力とする第2ニューラルネットワークにより文の種別が特定され、単語ベクトルと第2ニューラルネットワークが生成する第2状態ベクトルとを入力とする第3ニューラルネットワークにより単語の種別が特定される。したがって、文の種別と単語の種別とを高精度に解析できるという前述の効果は格別に顕著である。
第5態様の好適例(第6態様)において、前記第1ニューラルネットワークと前記第2ニューラルネットワークと前記第3ニューラルネットワークとの各々は、前記複数の単語のうちの第1単語の単語ベクトルを含む入力に対して、前記第1単語の前方に位置する第2単語に関する推定を実行する。以上の態様では、第1単語の単語ベクトルを含む入力に対して、当該第1単語の前方に位置する第2単語に関する推定が実行される。したがって、単語の種別が後方の単語に依存するという現実の発話の傾向のもとで、各単語の種別を高精度に推定できるという利点がある。
第1態様から第6態様の好適例(第7態様)において、発話音声を表す音響信号に対する音声認識により前記複数の単語を特定する。以上の態様によれば、発話音声の各単語の種別または当該単語を含む文の種別を推定することが可能である。
本発明の好適な態様(第8態様)に係るプログラムは、時系列に配列された複数の単語の各々について、当該単語が文末または文頭に位置するか否かを推定する処理と、当該単語の種別または当該単語を含む文の種別を、当該単語と、前記推定の結果に対応する解析データとに応じて推定するニューラルネットワークとしてコンピュータを機能させる。以上の態様では、単語が文末または文頭に位置するか否かが推定され、当該推定の結果に対応する解析データと当該単語とに応じて当該単語の種別または文の種別が推定される。したがって、単語が文末または文頭に位置するか否かを推定しない構成(例えば単語ベクトルのみから種別を推定する構成)と比較して、単語の種別または当該単語を含む文の種別を高精度に解析することができる。
100A,100B…情報処理装置、11…制御装置、12…記憶装置、13…収音装置、14…表示装置、15…放音装置、21…音声解析部、22…単語解析部、23…種別解析部、24…特定処理部、25…信号処理部、ν…ニューラルネットワーク、ν1…第1ニューラルネットワーク、ν2…第2ニューラルネットワーク、ν3…第3ニューラルネットワーク、200…端末装置、51…制御装置、52…記憶装置、53…収音装置、54…表示装置。


Claims (8)

  1. 時系列に配列された複数の単語の各々について、当該単語が文末または文頭に位置するか否かを推定し、
    当該単語の種別または当該単語を含む文の種別を、当該単語と、前記推定の結果に対応する解析データとに応じて推定する、
    コンピュータにより実現される言語解析方法。
  2. 前記単語の種別または文の種別を推定した結果に応じて、提示装置により提示される文を特定する
    請求項1の言語解析方法。
  3. 前記単語が文末または文頭に位置するか否かを、当該単語を表す単語ベクトルを入力とする第1ニューラルネットワークにより推定する
    請求項1または請求項2の言語解析方法。
  4. 当該単語の種別または当該単語を含む文の種別を、前記単語ベクトルと、前記第1ニューラルネットワークが生成する第1状態ベクトルとに応じて推定する
    請求項3の言語解析方法。
  5. 前記種別の推定においては、
    前記単語を含む文の種別を、前記単語ベクトルと前記第1状態ベクトルとを入力とする第2ニューラルネットワークにより推定し、
    前記単語の種別を、前記単語ベクトルと前記第2ニューラルネットワークが生成する第2状態ベクトルとを入力とする第3ニューラルネットワークにより推定する
    請求項4の言語解析方法。
  6. 前記第1ニューラルネットワークと前記第2ニューラルネットワークと前記第3ニューラルネットワークとの各々は、前記複数の単語のうちの第1単語の単語ベクトルを含む入力に対して、前記第1単語の前方に位置する第2単語に関する推定を実行する
    請求項5の言語解析方法。
  7. 発話音声を表す音響信号に対する音声認識により前記複数の単語を特定する
    請求項1から請求項6の何れかの言語解析方法。
  8. 時系列に配列された複数の単語の各々について、当該単語が文末または文頭に位置するか否かを推定する処理と、
    当該単語の種別または当該単語を含む文の種別を、当該単語と、前記推定の結果に対応する解析データとに応じて推定する処理と
    をコンピュータに実行させるプログラム。



JP2017213773A 2017-11-06 2017-11-06 言語解析方法およびプログラム Pending JP2019086958A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017213773A JP2019086958A (ja) 2017-11-06 2017-11-06 言語解析方法およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017213773A JP2019086958A (ja) 2017-11-06 2017-11-06 言語解析方法およびプログラム

Publications (1)

Publication Number Publication Date
JP2019086958A true JP2019086958A (ja) 2019-06-06

Family

ID=66763037

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017213773A Pending JP2019086958A (ja) 2017-11-06 2017-11-06 言語解析方法およびプログラム

Country Status (1)

Country Link
JP (1) JP2019086958A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021192114A (ja) * 2020-12-01 2021-12-16 北京百度網訊科技有限公司 音声インタラクション方法、装置、電子機器、コンピュータ読取可能な記憶媒体及びコンピュータプログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021192114A (ja) * 2020-12-01 2021-12-16 北京百度網訊科技有限公司 音声インタラクション方法、装置、電子機器、コンピュータ読取可能な記憶媒体及びコンピュータプログラム

Similar Documents

Publication Publication Date Title
CN107657017B (zh) 用于提供语音服务的方法和装置
WO2021232725A1 (zh) 基于语音交互的信息核实方法、装置、设备和计算机存储介质
US11727914B2 (en) Intent recognition and emotional text-to-speech learning
US10210861B1 (en) Conversational agent pipeline trained on synthetic data
US11049493B2 (en) Spoken dialog device, spoken dialog method, and recording medium
CN101030368B (zh) 在保持情感的同时跨通道进行通信的方法和系统
US10089974B2 (en) Speech recognition and text-to-speech learning system
JP2021168139A (ja) マンマシンインタラクションのための方法、装置、機器および媒体
US9594744B2 (en) Speech transcription including written text
KR20160089152A (ko) 화행 분석을 통한 스티커 추천 방법 및 시스템
CN111667816A (zh) 模型训练方法、语音合成方法、装置、设备和存储介质
CN109741732A (zh) 命名实体识别方法、命名实体识别装置、设备及介质
JP2014145842A (ja) 発話解析装置、音声対話制御装置、方法、及びプログラム
RU2692051C1 (ru) Способ и система для синтеза речи из текста
US20150364127A1 (en) Advanced recurrent neural network based letter-to-sound
US11151996B2 (en) Vocal recognition using generally available speech-to-text systems and user-defined vocal training
CN108877803B (zh) 用于呈现信息的方法和装置
WO2019031268A1 (ja) 情報処理装置、及び情報処理方法
KR20210087098A (ko) 음성 인터랙션에 기반하는 정보 검증 방법, 장치, 기기, 컴퓨터 저장 매체 및 컴퓨터 프로그램 제품
CN110647613A (zh) 一种课件构建方法、装置、服务器和存储介质
US9087512B2 (en) Speech synthesis method and apparatus for electronic system
JP2019086958A (ja) 言語解析方法およびプログラム
CN108877795B (zh) 用于呈现信息的方法和装置
US20220208190A1 (en) Information providing method, apparatus, and storage medium, that transmit related information to a remote terminal based on identification information received from the remote terminal
CN116186258A (zh) 基于多模态知识图谱的文本分类方法、设备及存储介质