JP7034027B2 - 認識装置、認識方法及び認識プログラム - Google Patents

認識装置、認識方法及び認識プログラム Download PDF

Info

Publication number
JP7034027B2
JP7034027B2 JP2018140463A JP2018140463A JP7034027B2 JP 7034027 B2 JP7034027 B2 JP 7034027B2 JP 2018140463 A JP2018140463 A JP 2018140463A JP 2018140463 A JP2018140463 A JP 2018140463A JP 7034027 B2 JP7034027 B2 JP 7034027B2
Authority
JP
Japan
Prior art keywords
recognition
text
utterance
voice
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018140463A
Other languages
English (en)
Other versions
JP2020016784A (ja
Inventor
伸裕 鍜治
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2018140463A priority Critical patent/JP7034027B2/ja
Publication of JP2020016784A publication Critical patent/JP2020016784A/ja
Application granted granted Critical
Publication of JP7034027B2 publication Critical patent/JP7034027B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、認識装置、認識方法及び認識プログラムに関する。
従来、ネットワーク上の情報を音声認識に利用する技術が提案されている。例えば、音声認識結果の単語の検索件数を用いて、音声認識の単語辞書を作成する技術が提案されている(特許文献1)。
特開2003-295885号公報
しかしながら、上記の従来技術では、音声認識の精度を向上させることができるとは限らない。
例えば、上記の従来技術では、音声認識結果に誤りがある場合には、音声認識の精度を向上させることができない。
本願は、上記に鑑みてなされたものであって、音声認識の精度を向上させることを目的とする。
本願に係る認識装置は、利用者の発話を含む音声情報を取得する取得部と、前記音声情報と、利用者によって入力されたテキストの履歴である履歴情報とを用いて、当該音声情報に含まれる発話の認識を行う認識部とを有することを特徴とする。
実施形態の一態様によれば、音声認識の精度を向上させることができるという効果を奏する。
図1は、実施形態に係るネットワークシステムの構成例を示す図である。 図2は、実施形態に係る認識処理の一例を示す図である。 図3は、実施形態に係る認識装置の構成例を示す図である。 図4は、実施形態に係るクエリログ情報記憶部の一例を示す図である。 図5は、実施形態に係る認識装置による認識処理手順を示すフローチャートである。 図6は、変形例に係る認識処理の一例を示す図である。 図7は、ハードウェア構成の一例を示す図である。
以下に、本願に係る認識装置、認識方法及び認識プログラムを実施するための形態(以下、「実施形態」と呼ぶ)について図面を参照しつつ詳細に説明する。なお、この実施形態により本願に係る認識装置、認識方法及び認識プログラムが限定されるものではない。また、各実施形態は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。また、以下の各実施形態において同一の部位には同一の符号を付し、重複する説明は省略する。
〔1.ネットワークシステムの構成〕
まず、図1を参照して、実施形態に係るネットワークシステム1の構成について説明する。図1は、実施形態に係るネットワークシステム1の構成例を示す図である。図1に示すように、実施形態に係るネットワークシステム1には、端末装置10と、提供装置20と、認識装置100とが含まれる。端末装置10、提供装置20および認識装置100は、それぞれネットワークNと有線又は無線により接続される。
図1中では図示していないが、ネットワークシステム1は、端末装置10~10を含んでもよい。本明細書では、端末装置10~10を区別する必要がない場合は、端末装置10~10を「端末装置10」と総称する。また、ネットワークシステム1は、複数台の提供装置20や、複数台の認識装置100を含んでもよい。
端末装置10は、ユーザによって利用される情報処理装置である。端末装置10は、スマートフォン、デスクトップ型PC(Personal Computer)、ノート型PC、タブレット型PC、PDA(Personal Digital Assistant)を含む、任意のタイプの情報処理装置であってもよい。
提供装置20は、端末装置10および認識装置100に、各種情報または機能を提供するサーバ装置である。例えば、提供装置20は、端末装置10に対して、検索エンジンを提供する。また、例えば、提供装置20は、認識装置100に対して、検索エンジンのクエリログを提供する。
認識装置100は、ユーザの発話の認識を行うサーバ装置である。認識装置100は、ネットワークNを介して、有線又は無線により端末装置10および提供装置20と通信を行う。
〔2.認識処理〕
次に、図2を参照して、実施形態に係る認識処理の一例について説明する。図2は、実施形態に係る認識処理の一例を示す図である。
図2の例では、提供装置20は、検索サイトを介して、端末装置10に対して検索エンジンを提供する。クエリが検索サイトの検索ウィンドウに入力された場合に、提供装置20は、クエリに対応する検索結果を、端末装置10に提供する。提供装置20は、検索エンジンのクエリログを、認識装置100に送信する。一例では、クエリログは、所定の回数以上入力された検索クエリを示すテキストデータである。この例では、テキストデータは、テキストベースのウェブ検索において頻出するクエリを示す。図2の例では、クエリログは、例えば、単語「海の生き物」を含む。すなわち、単語「海の生き物」は、所定の回数以上、検索クエリとして入力されている。
図2の例では、認識装置100は、提供装置20から受信されたクエリログと、音声認識モデルRM1とを用いて、ユーザの発話内容を示すテキストデータを生成する。図2の例では、音声認識モデルRM1は、音声認識を行うメモリニューラルネットワーク(Memory Neural Network)である。例えば、ユーザの音声データの音響特徴量が音声認識モデルRM1に入力された場合に、音声認識モデルRM1は、ユーザの発話内容を示すテキストデータを音声認識結果として出力する。図2の例では、音声認識モデルRM1は、メモリM1と接続されている。
はじめに、認識装置100は、提供装置20からクエリログを受信する。そして、認識装置100は、受信されたクエリログに対応する埋め込みベクトル(例えば、分散表現)を生成し、生成されたクエリログに対応する埋め込みベクトルを、メモリM1に格納する。
次いで、認識装置100は、所定のユーザの音声データを含む訓練データを用いて、音声認識モデルRM1を学習する。より具体的には、認識装置100は、メモリM1に記憶された埋め込みベクトルに対応するクエリログの単語が音声認識結果として出力される確率が上昇するように、音声認識モデルRM1を学習する。例えば、認識装置100は、メモリM1に記憶された埋め込みベクトルを用いて、音声認識結果となる単語の重要度を示す重みであるメモリニューラルネットワークの重みを算出し、算出された重みに基づいて、クエリログの単語に対応する音声認識モデルRM1を学習する。
一例では、認識装置100は、メモリニューラルネットワークの重みを、音声データとクエリログの単語との間の類似性に基づいて決定する。例えば、認識装置100は、音声データから生成された単語の埋め込みベクトルと、クエリログの単語の埋め込みベクトルとを比較することで、音声データとクエリログの単語との間の類似度を算出し、算出された類似度を、メモリニューラルネットワークの重みとして決定する。
次いで、認識装置100は、音声アシスタントアプリケーションを介して、ユーザU1の発話に対応する音声データを端末装置10から受信する。ここで、図2に示す例では、ユーザU1が「海の生き物を検索」と発話したが、背景音や残響音等のノイズ、利用者の滑舌や発音、端末装置10が有するマイクの精度等、各種の要因により音声の認識が不明瞭となり、「うみのひきものを検索」といった音声認識が行われうる音声データを受信したものとする。なお、このような不明瞭な発話を含む音声データは、利用者が正しい発音であると意図しているが、正確な発音ではない発話を含むものとする。すなわち、不明瞭な発話を含む音声データには、発話の音声が不明瞭となる結果従来の音声認識技術では利用者が意図したものとは異なる音声認識が行われうる音声データのみならず、発話の音声が明瞭であるものの利用者が誤った発音を行なっている音声データ、すなわち、発話の内容が不明瞭な音声データを含む概念である。
次いで、認識装置100は、メモリM1に基づいてユーザU1の音声情報からテキストを抽出する音声認識モデルRM1を用いて、ユーザU1の発話を音声認識する。より具体的には、認識装置100は、音声認識モデルRM1のメモリM1に含まれるクエリログを注意対象としながら、ユーザU1の発話内容を示すテキストデータを生成する。
図2の例では、ユーザU1の音声情報の「うみのひきもの」に対応する音素列は、「海の挽き物」、「海の生き物」、「膿の生き物」、「海の着物」等に対応する場合がある。かかる音素列は、「うみのひぃきもの」等にも対応し得る。図2の例では、認識装置100は、メモリM1に含まれるクエリログの単語「海の生き物」を注意対象とすることで、ユーザU1の発話内容を示すテキストデータ「海の生き物」を音声認識結果として出力する。すなわち、認識装置100は、メモリM1に格納されたクエリログを用いて、音声認識の結果を補正する。換言すると、認識装置100は、クエリログに含まれるいずれかの単語や文字列が音声認識の結果として生成され易いように、利用者の発話を含む音声データの音声認識を行う。認識装置100は、例えば、クエリログを用いない場合よりもクエリログを用いた場合に、クエリログに含まれるいずれかの単語や文字列が音声認識結果として生成される可能性がより高くなるように、音声データの音声認識を行う。
上述のように、実施形態に係る認識装置100は、検索エンジンのクエリログと、ユーザの発話に対応する音声データとを取得する。そして、認識装置100は、クエリログを注意対象としながら、ユーザの発話を音声認識する。すなわち、認識装置100は、テキストベースのウェブ検索において頻出するクエリ(例えば、所定の回数以上入力された検索クエリ)に注目しながら、ユーザの発話を音声認識する。これにより、認識装置100は、ユーザの発音が明瞭でない場合でも、ユーザの発話を適切に認識することができる。以下、このような認識処理を実現する認識装置100について詳細に説明する。
〔3.学習装置の構成〕
次に、図3を参照して、実施形態に係る認識装置100の構成例について説明する。図3は、実施形態に係る認識装置100の構成例を示す図である。図3に示すように、認識装置100は、通信部110と、記憶部120と、制御部130とを有する。なお、認識装置100は、認識装置100を利用する管理者等から各種操作を受け付ける入力部(例えば、キーボードやマウス等)や、各種情報を表示するための表示部(液晶ディスプレイ等)を有してもよい。
(通信部110)
通信部110は、例えば、NIC(Network Interface Card)等によって実現される。通信部110は、ネットワーク網と有線又は無線により接続され、ネットワーク網を介して、端末装置10および提供装置20との間で情報の送受信を行う。
(記憶部120)
記憶部120は、例えば、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。図3に示すように、記憶部120は、クエリログ情報記憶部121と、音声認識モデル記憶部122とを有する。
(クエリログ情報記憶部121)
図4は、実施形態に係るクエリログ情報記憶部121の一例を示す図である。クエリログ情報記憶部121は、利用者(例えば、ユーザ)によって入力されたテキストの履歴である履歴情報を記憶する。クエリログ情報記憶部121は、例えば、検索エンジンを提供する検索サービスの履歴情報を記憶する。例えば、履歴情報は、クエリログ情報記憶部121は、検索エンジンのクエリログを記憶する。
履歴情報は、検索エンジンを提供する検索サービスの以外のサービスの履歴情報であってもよい。例えば、履歴情報は、ネットワーク上のQAサービス(例えば、ユーザから質問を受け付け、その後、他のユーザから質問に対する回答を受け付けるサービス)の履歴情報であってもよい。この場合、履歴情報に含まれるテキストは、QAサービスの質問に含まれるキーワードである。
履歴情報は、検索サービス以外のサービスのウェブサイトの履歴に関する情報であってもよい。一例では、履歴情報は、ショッピングサイトの商品購入履歴に関する情報であってもよい。この例では、履歴情報は、商品に関連する名称を示すテキストや、商品に関連するタグを含む。別の例では、履歴情報は、ショッピングサイトの商品マスタデータであってもよい。
クエリログ情報記憶部121は、例えば、受信部131によって受信された履歴情報(例えば、検索エンジンのクエリログ)を記憶する。図4の例では、クエリログ情報記憶部121には、「クエリ」が「ユーザID」ごとに記憶される。「ユーザID」は、ユーザを識別するための識別子を示す。例示として、「クエリログ」には、項目「クエリ」が含まれる。例えば、図4は、ユーザID「U1」で識別されるユーザが、クエリ「クエリQ1」を入力したことを示している。一例では、クエリは、ウェブサイトの検索ウィンドウに入力された「あいうえお」等のキーワードである。
(音声認識モデル記憶部122)
図3に戻ると、音声認識モデル記憶部122は、音声認識モデルを記憶する。例えば、音声認識モデル記憶部122は、音声情報からテキストを抽出するモデルを記憶する。また、例えば、音声認識モデル記憶部122は、クエリログに基づいて音声情報からテキストを抽出するモデルを記憶する。音声認識モデル記憶部122は、所定のサーバから受信された音声認識モデルを記憶する。
音声認識モデル記憶部122は、例えば、学習部135によって学習されたモデルであって、音声情報からテキストを抽出するモデルを記憶する。音声認識モデル記憶部122は、例えば、学習部135によって学習されたモデルであって、クエリログに基づいて音声情報からテキストを抽出するモデルを記憶する。
一例では、音声認識モデルは、メモリニューラルネットワークである。例えば、音声認識モデルは、所定のメモリと接続されたニューラルネットワークである。音声認識モデルは、エンドツーエンドメモリネットワーク(end - to - end Memory Network)であってもよい。音声認識モデルは、ソフト注意機構(soft attention mechanism)としてメモリを含んでもよい。
(制御部130)
制御部130は、コントローラ(controller)であり、例えば、CPU(Central Processing Unit)、MPU(Micro Processing Unit)等のプロセッサによって、認識装置100内部の記憶装置に記憶されている各種プログラムがRAM等を作業領域として実行されることにより実現される。また、制御部130は、コントローラ(controller)であり、例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等の集積回路により実現されてもよい。
(受信部131)
受信部131は、提供装置20から、利用者の発話を含む音声情報を受信する。一例では、提供装置20からクエリログを受信する。受信部131は、受信された音声情報を、記憶部120内の所定の記憶領域である音声情報記憶部(図示せず)に格納してもよい。
受信部131は、提供装置20から、利用者によって入力されたテキストの履歴である履歴情報を受信する。受信部131は、受信された履歴情報を、クエリログ情報記憶部121に格納してもよい。
受信部131は、所定のサーバから、音声認識モデルを受信してもよい。受信部131は、受信された音声認識モデルを、音声認識モデル記憶部122に格納してもよい。
受信部131は、所定のサーバから、ユーザの音声データを含む訓練データを受信してもよい。受信部131は、受信された訓練データを、記憶部120内の所定の記憶領域である訓練データ記憶部(図示せず)に格納してもよい。
(取得部132)
取得部132は、利用者の発話を含む音声情報を取得する。取得部132は、例えば、受信部131によって受信された音声情報を取得する。取得部132は、記憶部120内の所定の記憶領域である音声情報記憶部から音声情報を取得してもよい。
利用者の発話を含む音声情報は、例えば、利用者の発話の音響特徴量を示す情報である。例えば、音声情報は、利用者の音声信号に対応するメルフィルタバンクの出力である。また、例えば、音声情報は、利用者の音声信号に対応するメル周波数ケプストラム係数である。音声情報は、利用者の音声信号に対応する信号波形であってもよい。音声情報が信号波形である場合には、取得部132は、信号波形から音響特徴量を抽出してよい。
取得部132は、利用者によって入力されたテキストの履歴である履歴情報を取得する。例えば、受信部131によって受信された履歴情報を取得する。取得部132は、クエリログ情報記憶部121から履歴情報を取得してもよい。
(認識部133)
認識部133は、音声情報と、利用者によって入力されたテキストの履歴である履歴情報とを用いて、かかる音声情報に含まれる発話の認識を行う。例えば、認識部133は、音声情報に基づいて、履歴情報に含まれるテキストのうち音声情報に含まれる発話に対応する確度が高いテキストを特定し、特定したテキストに基づいて、かかる発話の認識結果を生成する。また、例えば、認識部133は、検索クエリの履歴を含む履歴情報を用いて、発話の認識を行う。一例では、検索クエリの履歴は、所定の検索エンジンのクエリログである。
例えば、認識部133は、音声情報と、履歴情報に含まれるテキストとが入力された場合に、かかる履歴情報に含まれるテキストに基づいて、音声情報に含まれる発話のテキストを出力するモデルを用いて、発話の認識を行う。例えば、認識部133は、かかるモデルとして、履歴情報に含まれるテキストのうち音声情報に含まれる発話のテキストとして確度が高いテキストを、かかる発話のテキストとして出力するモデルを用いて、発話の認識を行う。
より具体的には、認識部133は、音声情報が入力された場合に、かかる音声情報に含まれる音声の発音に類似する発音に関するテキストであって、履歴情報に含まれるテキストを、音声情報に含まれる発話のテキストとして出力するモデルを用いて、発話の認識を行う。一例では、認識部133は、音声「うみのひきもの」を含む音声情報が入力された場合に、音声「うみのひきもの」の発音に類似する発音に関するテキスト「海の生き物(うみのいきもの)」を、かかる音声情報に含まれる発話のテキストとして出力する。
一例では、発話のテキストを出力するモデルは、メモリニューラルネットワークである。この例では、認識部133は、メモリに基づいて利用者(例えば、ユーザ)の音声情報からテキストを抽出する音声認識モデルを用いて、利用者の発話を音声認識する。より具体的には、認識部133は、音声認識モデルのメモリに含まれるクエリログを注意対象としながら、利用者の発話内容を示すテキストデータを生成する。
一例では、音声認識モデルのメモリは、キーワード「あいうえお」に対応する埋め込みベクトルを含む。例えば、利用者の「あいうえお」の発音が明瞭でないと仮定すると、利用者の音声情報の「あえういお」に対応する音素列は、「あいうえお」、「あえういお」、「はいふえお」等に対応する場合がある。この例では、認識部133は、音声認識モデルのメモリに含まれるキーワード「あいうえお」を注意対象とすることで、利用者の発話内容を示すテキストデータ「あいうえお」を音声認識結果として出力する。
認識部133は、学習部135により学習が行われたモデルを用いて、発話の認識を行ってもよい。
(生成部134)
生成部134は、利用者によって入力されたテキストの履歴である履歴情報に対応する記憶情報を生成する。例えば、生成部134は、履歴情報のテキストに対応する埋め込みベクトルを、記憶情報として生成する。生成部134は、生成された記憶情報を、音声認識モデルのメモリに格納する。その結果、生成された記憶情報は、メモリニューラルネットワークのネットワーク内に含まれることとなる。
(学習部135)
学習部135は、ユーザの音声データを含む訓練データを用いて、音声認識モデルを学習する。学習部135は、例えば、受信部131によって受信された訓練データを用いて、音声認識モデルを学習する。
訓練データは、例えば、ユーザの音声の音声特徴量を示すデータと、ユーザの音声に対応付けられたラベル等を含む。音声特徴量は、例えば、メルフィルタバンクやメル周波数ケプストラム係数等である。また、ユーザの音声に対応付けられたラベルは、音素ラベルや、音素ラベル列等である。
学習部135は、利用者の発話を含む音声情報と、かかる音声情報を入力した際に出力させたい目標テキストを含む履歴情報とを入力した際に、かかる目標テキストを出力するようにモデルの学習を行う。例えば、学習部135は、不明瞭な発音を含む利用者の発話を含む音声情報と、かかる音声情報を入力した際に出力させたい目標テキストを含む履歴情報とを入力した際に、かかる目標テキストを出力するようにモデルの学習を行う。
例えば、学習部135は、単語の境界が不明確である利用者の発話を含む音声情報と、目標テキストを含む履歴情報とを入力した際に、かかる目標テキストのうちかかる単語の発音に類似する発音に対応するテキストを出力するようにモデルの学習を行う。一例では、学習部135は、発話「うみのひぃきもの」と、目標テキスト「海の生き物」を含む履歴情報とを入力した際に、目標テキスト「海の生き物」を出力するようにモデルの学習を行う。
また、例えば、学習部135は、メモリに記憶された記憶情報に対応するクエリログの単語が音声認識結果として出力される確率が上昇するように、音声認識モデルを学習する。例えば、学習部135は、メモリに記憶された埋め込みベクトル(すなわち、履歴情報のテキストに対応する埋め込みベクトル)を用いて、音声認識結果となる単語の重要度を示す重みであるメモリニューラルネットワークの重みを算出し、算出された重みに基づいて、クエリログの単語に対応する音声認識モデルを学習する。メモリニューラルネットワークの重みは、ソフト注意機構(soft attention mechanism)における隠れ状態ベクトルの重要度を示す重みに相当する。
一例では、学習部135は、メモリニューラルネットワークの重みを、音声データとクエリログの単語との間の類似性に基づいて決定する。例えば、学習部135は、音声データから生成された単語の埋め込みベクトルと、クエリログの単語の埋め込みベクトルとを比較することで、音声データとクエリログの単語との間の類似度を算出し、算出された類似度を、メモリニューラルネットワークの重みとして決定する。この例では、学習部135は、エンコーダ(符号化器)と、ソフト注意機構に対応するメモリと、デコーダ(復号化器)とを含むメモリニューラルネットワークの学習を行う。
例えば、学習部135は、エンドツーエンドのメモリネットワークにおいて、LSTM(long short - term memory)(例えば、エンコーダRNN(recurrent neural network)を用いて、利用者の発話の音響特徴量を第1の埋め込みベクトルに符号化する。また、学習部135は、クエリログの単語を第2の埋め込みベクトルに符号化する。次いで、学習部135は、第1の埋め込みベクトルと、第2の埋め込みベクトルとを用いて、メモリネットワークの重みを算出する。次いで、学習部135は、第1の埋め込みベクトルを算出された重みで重み付けすることで、隠れ状態ベクトルを生成する。次いで、学習部135は、第2のLSTM(例えば、デコーダRNN)を用いて、生成された隠れ状態ベクトルを音素列に復号化(デコード)する。その後、学習部135は、単語誤り率に対応する交差エントロピー等に基づいて、メモリニューラルネットワークの学習を行う。
(提供部136)
提供部136は、認識部133によって出力された音声認識結果を提供する。例えば、提供部136は、利用者の発話内容を示すテキストデータを、提供装置20に送信する。提供部136は、学習部135によって学習された音声認識モデルを、提供装置20に提供してもよい。
〔4.認識処理のフロー〕
次に、実施形態に係る認識装置100による認識処理の手順について説明する。図5は、実施形態に係る認識装置100による認識処理手順を示すフローチャートである。
図5に示すように、はじめに、認識装置100は、利用者の発話を含む音声情報を取得する(ステップS101)。例えば、利用者の発話の音響特徴量を示す情報を取得する。
次いで、認識装置100は、音声情報と、利用者によって入力されたテキストの履歴である履歴情報とを用いて、かかる音声情報に含まれる発話の認識を行う(ステップS102)。例えば、認識装置100は、履歴情報に含まれるテキストを用いて、発話に対応するテキストを、かかる発話の認識結果として生成する。また、例えば、認識装置100は、クエリログである履歴情報を用いて、発話の認識を行う。
例えば、認識装置100は、クエリログに基づいて音声情報からテキストを抽出するモデルを用いて、発話の認識を行う。一例では、モデルは、メモリニューラルネットワークである。この例では、認識装置100は、メモリに基づいて利用者の音声情報からテキストを抽出する音声認識モデルを用いて、利用者の発話を音声認識する。より具体的には、認識装置100は、音声認識モデルのメモリに含まれるクエリログを注意対象としながら、利用者の発話内容を示すテキストデータを生成する。
〔5.変形例〕
上述の実施形態に係る認識装置100は、上記の実施形態以外にも、種々の異なる形態で実施されてよい。そこで、以下では、上記の認識装置100の他の実施形態について説明する。
〔5-1.音声認識処理後のクエリログの利用〕
上記実施形態では、認識部133は、クエリログに基づいて音声情報からテキストを抽出するモデルを用いて、発話の認識を行っているが、これに限定されるものではない。認識部133は、音声情報から音声情報に含まれる発話のテキストを抽出するモデルを用いて、複数のテキストの候補を生成し、生成された複数のテキストと履歴情報との比較結果に基づいて、かかる複数のテキストの候補から、発話の認識結果となるテキストを選択してもよい。
以下の説明では、図6を参照し、音声認識モデルによる音声認識処理後のクエリログの利用について説明する。図6は、変形例に係る認識処理の一例を示す図である。
はじめに、受信部131は、利用者の発話を含む音声情報を受信する。図6の例では、図2の例と同様に、受信部131は、音声アシスタントアプリケーションを介して、ユーザU1の発話「うみのひきものを検索」に対応する音声データを、端末装置10から受信する。
次いで、認識部133は、音声情報からテキストを抽出するモデルを用いて、複数のテキストの候補を生成する。より具体的には、認識部133は、音響モデル(例えば、DNN - HMMモデル(Deep Neural Network - Hidden Markov Model)モデル)を音声認識モデルとして用いて、発話の認識を行う。図6の例では、認識部133は、所定の音響モデルである音声認識モデルRM2を用いて、複数の認識候補を出力する。一例では、認識部133は、「海の挽き物を検索」、「海の生き物を検索」等を含む複数の認識候補を、複数のテキストとして出力する。
次いで、認識部133は、生成された複数のテキストと履歴情報との比較結果に基づいて、かかる複数のテキストの候補から、発話の認識結果となるテキストを選択する。より具体的には、認識部133は、クエリログに基づいて、複数の認識候補の中から認識結果を決定する。
図6の例では、認識部133は、テキストの候補「海の挽き物を検索」を第1候補として出力する。また、認識部133は、テキストの候補「海の生き物を検索」を第2候補として出力する。そして、認識部133は、クエリログ情報記憶部121を参照し、クエリログ情報記憶部121が複数の認識候補のいずれかにマッチするクエリ(例えば、キーワード)を記憶しているか否かを決定する。図6の例では、クエリログ情報記憶部121はクエリ「海の生き物」を記憶している。この例では、認識部133は、複数の認識候補の中から、クエリ「海の生き物」に対応する単語を含むテキストの候補「海の生き物を検索」を、認識結果として決定する。すなわち、認識部133は、クエリログ情報記憶部121に含まれるクエリに基づいて、音声認識モデルRM2によって出力されたテキストの候補の順位を入れ替える。
〔5-2.ドメインに応じたクエリログの変更〕
認識部133は、利用者の発話と関連性を有する履歴情報を用いて、音声情報に含まれる発話の認識を行ってもよい。例えば、利用者の発話に関連するドメインの履歴情報を用いて、音声情報に含まれる発話の認識を行ってもよい。
一例では、ドメインは、検索結果の種類、検索のタイプ、検索対象の種類等を表す。例えば、ドメインは、ウェブページ、ニュース、画像、地図、動画等を含む。この例では、利用者が検索要求「うみのひきものの画像見せて」を発話した場合に、認識部133は、画像検索のクエリログに基づいて音声情報からテキストを抽出するモデルを用いて、利用者の発話の認識を行う。
別の例では、ドメインは、サービスのカテゴリ等を表す。例えば、ドメインは、ネットワーク上のQAサービス、ショッピングサービス等である。この例では、利用者が音声アシスタントに対して、「好きなうみのひきものは何ですか?」という質問を発話した場合に、認識部133は、ネットワーク上のQAサービスのクエリログに基づいて音声情報からテキストを抽出するモデルを用いて、利用者の発話の認識を行う。
〔5-3.その他〕
また、上記実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の一部を手動的に行うこともできる。あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。
例えば、図3に示した記憶部120の一部又は全部は、認識装置100によって保持されるのではなく、ストレージサーバ等に保持されてもよい。この場合、認識装置100は、ストレージサーバにアクセスすることで、クエリログ情報や音声認識モデル等の各種情報を取得する。
〔5-4.ハードウェア構成〕
また、上述してきた実施形態に係る認識装置100は、例えば図7に示すような構成のコンピュータ1000によって実現される。図7は、ハードウェア構成の一例を示す図である。コンピュータ1000は、出力装置1010、入力装置1020と接続され、演算装置1030、一次記憶装置1040、二次記憶装置1050、出力IF(Interface)1060、入力IF1070、ネットワークIF1080がバス1090により接続された形態を有する。
演算装置1030は、一次記憶装置1040や二次記憶装置1050に格納されたプログラムや入力装置1020から読み出したプログラム等に基づいて動作し、各種の処理を実行する。一次記憶装置1040は、RAM等、演算装置1030が各種の演算に用いるデータを一時的に記憶するメモリ装置である。また、二次記憶装置1050は、演算装置1030が各種の演算に用いるデータや、各種のデータベースが登録される記憶装置であり、ROM(Read Only Memory)、HDD、フラッシュメモリ等により実現される。
出力IF1060は、モニタやプリンタといった各種の情報を出力する出力装置1010に対し、出力対象となる情報を送信するためのインタフェースであり、例えば、USB(Universal Serial Bus)やDVI(Digital Visual Interface)、HDMI(登録商標)(High Definition Multimedia Interface)といった規格のコネクタにより実現される。また、入力IF1070は、マウス、キーボード、およびスキャナ等といった各種の入力装置1020から情報を受信するためのインタフェースであり、例えば、USB等により実現される。
なお、入力装置1020は、例えば、CD(Compact Disc)、DVD(Digital Versatile Disc)、PD(Phase change rewritable Disk)等の光学記録媒体、MO(Magneto-Optical disk)等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等から情報を読み出す装置であってもよい。また、入力装置1020は、USBメモリ等の外付け記憶媒体であってもよい。
ネットワークIF1080は、ネットワークNを介して他の機器からデータを受信して演算装置1030へ送り、また、ネットワークNを介して演算装置1030が生成したデータを他の機器へ送信する。
演算装置1030は、出力IF1060や入力IF1070を介して、出力装置1010や入力装置1020の制御を行う。例えば、演算装置1030は、入力装置1020や二次記憶装置1050からプログラムを一次記憶装置1040上にロードし、ロードしたプログラムを実行する。
例えば、コンピュータ1000が認識装置100として機能する場合、コンピュータ1000の演算装置1030は、一次記憶装置1040上にロードされたプログラムを実行することにより、制御部130の機能を実現する。
〔6.効果〕
上述してきたように、実施形態に係る認識装置100は、取得部132と、認識部133とを有する。取得部132は、利用者の発話を含む音声情報を取得する。認識部133は、音声情報と、利用者によって入力されたテキストの履歴である履歴情報とを用いて、かかる音声情報に含まれる発話の認識を行う。このため、認識装置100は、利用者によるテキストの入力履歴を用いて、音声認識の精度を向上させることができる。
また、実施形態に係る認識装置100において、認識部133は、音声情報に基づいて、履歴情報に含まれるテキストのうち発話に対応する確度が高いテキストを特定し、特定したテキストに基づいて、かかる発話の認識結果を生成する。このため、認識装置100は、自然な音声認識結果を利用者に提供することができる。
また、実施形態に係る認識装置100において、認識部133は、検索クエリの履歴を含む履歴情報を用いて、発話の認識を行う。
また、実施形態に係る認識装置100において、認識部133は、音声情報と、履歴情報に含まれるテキストとが入力された場合に、かかる履歴情報に含まれるテキストに基づいて、音声情報に含まれる発話のテキストを出力するモデルを用いて、発話の認識を行う。
また、実施形態に係る認識装置100において、認識部133は、音声情報に含まれる発話のテキストを出力するモデルとして、履歴情報に含まれるテキストのうち音声情報に含まれる発話のテキストとして確度が高いテキストを、かかる発話のテキストとして出力するモデルを用いて、発話の認識を行う。
また、実施形態に係る認識装置100は、利用者の発話を含む音声情報と、かかる音声情報を入力した際に出力させたい目標テキストを含む履歴情報とを入力した際に、かかる目標テキストを出力するようにモデルの学習を行う学習部135を有する。また、実施形態に係る認識装置100において、認識部133は、学習部135により学習が行われたモデルを用いて、発話の認識を行う。
また、実施形態に係る認識装置100において、学習部135は、不明瞭な発音を含む利用者の発話を含む音声情報と、かかる音声情報を入力した際に出力させたい目標テキストを含む履歴情報とを入力した際に、かかる目標テキストを出力するようにモデルの学習を行う。
また、実施形態に係る認識装置100において、認識部133は、音声情報から音声情報に含まれる発話のテキストを抽出するモデルを用いて、複数のテキストの候補を生成し、生成された複数のテキストと履歴情報との比較結果に基づいて、かかる複数のテキストの候補から、発話の認識結果となるテキストを選択する。
上述した各処理により、認識装置100は、ユーザの発音が明瞭でない場合でも、ユーザの発話を適切に認識することができる。
以上、本願の実施形態のいくつかを図面に基づいて詳細に説明したが、これらは例示であり、発明の開示の欄に記載の態様を始めとして、当業者の知識に基づいて種々の変形、改良を施した他の形態で本発明を実施することが可能である。
また、上述した認識装置100は、複数のサーバコンピュータで実現してもよく、また、機能によっては外部のプラットフォーム等をAPI(Application Programming Interface)やネットワークコンピューティングなどで呼び出して実現するなど、構成は柔軟に変更できる。
また、上述してきた「部(section、module、unit)」は、「手段」や「回路」などに読み替えることができる。例えば、受信部は、受信手段や受信回路に読み替えることができる。
1 ネットワークシステム
10 端末装置
20 提供装置
100 認識装置
120 記憶部
121 クエリログ情報記憶部
122 音声認識モデル記憶部
130 制御部
131 受信部
132 取得部
133 認識部
134 生成部
135 学習部
136 提供部

Claims (9)

  1. 利用者の発話を含む音声情報を取得する取得部と、
    前記音声情報、利用者によって入力されたテキストの履歴である履歴情報に含まれるテキストを記憶するメモリを含むメモリニューラルネットワークに基づくモデルであって、ラベルに対応付けられた発話に加えて、当該メモリに記憶されたテキストを用いて学習されたモデルに与えることによって、当該音声情報に含まれる発話の認識を行う認識部と
    を有することを特徴とする認識装置。
  2. 前記認識部は、
    前記音声情報に基づいて、前記履歴情報に含まれるテキストのうち前記発話に対応する確度が高いテキストを特定し、特定したテキストに基づいて、前記発話の認識結果を生成する
    ことを特徴とする請求項1に記載の認識装置。
  3. 前記認識部は、
    検索クエリの履歴を含む前記履歴情報を用いて、前記発話の認識を行う
    ことを特徴とする請求項1または2に記載の認識装置。
  4. 前記認識部は、
    前記モデルとして、前記履歴情報に含まれるテキストにうち前記音声情報に含まれる発話のテキストとして確度が高いテキストを、当該発話のテキストとして出力するモデルを用いて、前記発話の認識を行う
    ことを特徴とする請求項に記載の認識装置。
  5. 利用者の発話を含む音声情報と、当該音声情報を入力した際に出力させたい目標テキストを含む履歴情報とを入力した際に、当該目標テキストを出力するようにモデルの学習を行う学習部をさらに有し、
    前記認識部は、
    前記学習部により学習が行われたモデルを用いて、前記発話の認識を行う
    ことを特徴とする請求項1~のうちいずれか1つに記載の認識装置。
  6. 前記学習部は、
    不明瞭な発音を含む利用者の発話を含む音声情報と、当該音声情報を入力した際に出力させたい目標テキストを含む履歴情報とを入力した際に、当該目標テキストを出力するようにモデルの学習を行う
    ことを特徴とする請求項に記載の認識装置。
  7. 前記認識部は、
    前記音声情報から当該音声情報に含まれる発話のテキストを抽出するモデルを用いて、複数のテキストの候補を生成し、生成された複数のテキストと前記履歴情報との比較結果に基づいて、当該複数のテキストの候補から、前記発話の認識結果となるテキストを選択する
    ことを特徴とする請求項1~のうちいずれか1つに記載の認識装置。
  8. 認識装置が実行する方法であって、
    利用者の発話を含む音声情報を取得する取得工程と、
    前記音声情報、利用者によって入力されたテキストの履歴である履歴情報に含まれるテキストを記憶するメモリを含むメモリニューラルネットワークに基づくモデルであって、ラベルに対応付けられた発話に加えて、当該メモリに記憶されたテキストを用いて学習されたモデルに与えることによって、当該音声情報に含まれる発話の認識を行う認識工程と
    を含むことを特徴とする認識方法。
  9. 利用者の発話を含む音声情報を取得する取得手順と、
    前記音声情報、利用者によって入力されたテキストの履歴である履歴情報に含まれるテキストを記憶するメモリを含むメモリニューラルネットワークに基づくモデルであって、ラベルに対応付けられた発話に加えて、当該メモリに記憶されたテキストを用いて学習されたモデルに与えることによって、当該音声情報に含まれる発話の認識を行う認識手順と
    をコンピュータに実行させるための認識プログラム。
JP2018140463A 2018-07-26 2018-07-26 認識装置、認識方法及び認識プログラム Active JP7034027B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018140463A JP7034027B2 (ja) 2018-07-26 2018-07-26 認識装置、認識方法及び認識プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018140463A JP7034027B2 (ja) 2018-07-26 2018-07-26 認識装置、認識方法及び認識プログラム

Publications (2)

Publication Number Publication Date
JP2020016784A JP2020016784A (ja) 2020-01-30
JP7034027B2 true JP7034027B2 (ja) 2022-03-11

Family

ID=69579537

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018140463A Active JP7034027B2 (ja) 2018-07-26 2018-07-26 認識装置、認識方法及び認識プログラム

Country Status (1)

Country Link
JP (1) JP7034027B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111341309A (zh) * 2020-02-18 2020-06-26 百度在线网络技术(北京)有限公司 一种语音交互方法、装置、设备和计算机存储介质
KR20220020723A (ko) 2020-08-12 2022-02-21 삼성전자주식회사 사용자의 음성 입력을 인식하는 디바이스 및 그 동작 방법
JPWO2023079875A1 (ja) * 2021-11-04 2023-05-11

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090228280A1 (en) 2008-03-05 2009-09-10 Microsoft Corporation Text-based search query facilitated speech recognition
JP2011513795A (ja) 2008-03-07 2011-04-28 グーグル・インコーポレーテッド 文脈に基づく音声認識文法選択
US20170103324A1 (en) 2015-10-13 2017-04-13 Facebook, Inc. Generating responses using memory networks
WO2018009351A1 (en) 2016-07-08 2018-01-11 Google Llc Follow-up voice query prediction
WO2018043137A1 (ja) 2016-08-31 2018-03-08 ソニー株式会社 情報処理装置及び情報処理方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090228280A1 (en) 2008-03-05 2009-09-10 Microsoft Corporation Text-based search query facilitated speech recognition
JP2011513795A (ja) 2008-03-07 2011-04-28 グーグル・インコーポレーテッド 文脈に基づく音声認識文法選択
US20170103324A1 (en) 2015-10-13 2017-04-13 Facebook, Inc. Generating responses using memory networks
WO2018009351A1 (en) 2016-07-08 2018-01-11 Google Llc Follow-up voice query prediction
WO2018043137A1 (ja) 2016-08-31 2018-03-08 ソニー株式会社 情報処理装置及び情報処理方法

Also Published As

Publication number Publication date
JP2020016784A (ja) 2020-01-30

Similar Documents

Publication Publication Date Title
CN107590135B (zh) 自动翻译方法、设备和系统
US20200380987A1 (en) User recognition for speech processing systems
KR102582291B1 (ko) 감정 정보 기반의 음성 합성 방법 및 장치
US10027662B1 (en) Dynamic user authentication
US20230317074A1 (en) Contextual voice user interface
CN111710333B (zh) 用于生成语音转录的方法和系统
US11074909B2 (en) Device for recognizing speech input from user and operating method thereof
KR102390940B1 (ko) 음성 인식을 위한 컨텍스트 바이어싱
KR20210146368A (ko) 숫자 시퀀스에 대한 종단 간 자동 음성 인식
WO2017127296A1 (en) Analyzing textual data
US10482876B2 (en) Hierarchical speech recognition decoder
US11741950B2 (en) Method and apparatus with speech processing
JP7034027B2 (ja) 認識装置、認識方法及び認識プログラム
US10685644B2 (en) Method and system for text-to-speech synthesis
JP6370962B1 (ja) 生成装置、生成方法および生成プログラム
KR20210001937A (ko) 사용자의 음성 입력을 인식하는 디바이스 및 그 동작 방법
KR20190059185A (ko) 청각 장애 학생들을 위한 전문 자료 텍스트 분석 기반 음성인식 기술 정확도 향상 방법 및 시스템
KR20180033875A (ko) 음성 신호를 번역하는 방법 및 그에 따른 전자 디바이스
US11961507B2 (en) Systems and methods for improving content discovery in response to a voice query using a recognition rate which depends on detected trigger terms
US12073825B2 (en) Method and apparatus for speech recognition
JP2024038566A (ja) キーワード検出装置、キーワード検出方法、およびキーワード検出プログラム
US20220028368A1 (en) Information processing device, information processing method, and program
CN110895938B (zh) 语音校正系统及语音校正方法
JP2020030379A (ja) 認識結果補正装置、認識結果補正方法、およびプログラム
CN111816164B (en) Method and apparatus for speech recognition

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20191101

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20191108

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200819

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210721

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210803

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211004

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220201

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220301

R150 Certificate of patent or registration of utility model

Ref document number: 7034027

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250