JP7343087B2

JP7343087B2 - 音声認識の方法、装置、およびデバイス、並びにコンピュータ可読記憶媒体

Info

Publication number: JP7343087B2
Application number: JP2021570241A
Authority: JP
Inventors: ニエ、ウェイラン; ウェン、フリアン; フアン、ヨウジア; ユ、ハイ; フ、シューマン
Original assignee: ホアウェイ・テクノロジーズ・カンパニー・リミテッド
Priority date: 2019-05-31
Filing date: 2020-03-16
Publication date: 2023-09-12
Anticipated expiration: 2040-03-16
Also published as: CN112017642A; EP3965101A1; JP2022534242A; US20220093087A1; EP3965101A4; CN112017642B; WO2020238341A1

Description

本願は、２０１９年５月３１日に出願された「ＳＰＥＥＣＨＲＥＣＯＧＮＩＴＩＯＮＭＥＴＨＯＤ，ＡＰＰＡＲＡＴＵＳ，ＡＮＤＤＥＶＩＣＥ，ＡＮＤＣＯＭＰＵＴＥＲ－ＲＥＡＤＡＢＬＥＳＴＯＲＡＧＥＭＥＤＩＵＭ」と題する中国特許出願第２０１９１０４７０９６６．４号に基づく優先権を主張するものであり、この中国特許出願が参照によりそのまま本明細書に組み込まれる。

本願は、人工知能技術の分野、とりわけ、音声認識の方法、装置、およびデバイス、並びにコンピュータ可読記憶媒体に関する。

人工知能技術の開発に伴い、生活圏では人工知能システムが広く使用されている。音声認識システムは人工知能システムのうちの１つである。音声認識システムを使用している間、ユーザは音声認識システムに音声命令を送信し、音声認識システムは、その音声命令に対して音声認識を行い、ユーザ命令を理解し、そのユーザ命令に従ってユーザに質問をする必要がある。次に、音声認識システムは、その質問に応答してユーザにより送信された返答音声を認識し、ユーザ返答を理解し、そのユーザ返答で示されるサービスを提供して、ユーザ要求を満たす。従って、音声認識を行う方法がユーザ要求を満たすための鍵となる。

関連技術によって音声認識方法が提供される。この方法では、言語モデルを呼び出して音声命令の認識とユーザ命令の理解とを行った後、ユーザに質問が送信され、その質問に基づき言語モデルが更に調整され、例えば、その質問に関連する語彙集合が言語モデルに統合され、その結果、調整後に取得される言語モデルは、語彙集合内の語彙を認識することができる。ユーザが語彙集合内の語彙を使用することにより返答音声を送信すると、調整後に取得される言語モデルは、その返答音声を認識して、ユーザ要求を満たすことができる。

発明者は、関連技術に少なくとも以下の問題があることに気付いている。

ユーザは、サードパーティとの通信で、音声命令および返答音声に加えて無関係な音声を立てる場合がある。例えば、典型的な複数ユーザのシナリオまたは複数状況のシナリオでは、ユーザが自動車または電気車両の車内モジュールと音声対話を行うと、無関係な音声に、そのユーザと別のユーザとの間の対話、または、別のユーザにより差し挟まれる音声などが含まれる可能性が高い場合がある。車内モジュールの音声認識システムは、無関係な音声も音声命令または返答音声として認識および理解する。その結果、提供されるサービスがユーザ要求から逸脱し、ユーザエクスペリエンスが低下する。

本願の実施形態は、関連技術における認識効果の低下およびユーザエクスペリエンスの低下という問題を克服するための、音声認識の方法、装置、およびデバイス、並びにコンピュータ可読記憶媒体を提供する。

ある態様によれば、本願は音声認識方法を提供する。

ある態様によれば、音声認識方法が提供される。方法は、第１意図の返答情報に基づき動的目標言語モデルを取得または生成する段階を含み、動的目標言語モデルは前端部分およびコア部分を含み、コア部分は、返答情報に関連する想定可能な説明を決定するように構成され、前端部分は、返答情報の確証的情報の説明を決定するように構成され、音声信号を取得し、かつ、音声信号を解析してキーワードを生成した後、動的目標言語モデルを呼び出して第２意図およびサービス内容を決定してよく、動的目標言語モデルの前端部分は、キーワードに基づき第２意図を解析し、動的目標言語モデルのコア部分は、キーワードに基づきサービス内容を解析する。

例として、ユーザと車内モジュールとの間の対話が行われる音声認識のシナリオを使用する。第１意図は、ユーザと車内モジュールとの間の会話が開始した後にユーザの音声信号を解析することにより取得される意図を含む。第１意図の返答情報は、第１意図に基づき車内モジュールによりユーザへ返信される１つまたは複数の返答情報を含み、車内モジュールは、第１意図の返答情報に基づき、前端部分とコア部分とを含む動的目標言語モデルを取得する。車内モジュールがユーザに１つまたは複数の返答情報を返信した後、車内モジュールは音声信号を再取得する。なお、車内モジュールにより再取得された音声信号は、ユーザと車内モジュールとの間の対話の、音声信号、すなわち、返答情報に関連する音声信号と、そのユーザと別のユーザとの間の対話の無関係な音声信号とを含んでよい。

次に、車内モジュールは、取得された音声信号を解析してキーワードを生成し、動的目標言語モデルを呼び出し、生成されたキーワードから返答情報に関連する語彙を解析する。動的目標言語モデルは前端部分およびコア部分を含む。前端部分は、ユーザによる返答情報の確証的情報の説明を決定するように構成され、確証的情報は、確認情報、修正情報、および取り消し情報などを含んでよい。ユーザの第２意図は、前端部分を使用してキーワードを解析することにより取得されてよい。例えば、第１意図の返答情報が１つあり、かつ、キーワードを解析することにより前端部分によって取得される確証的情報が「はい、その通りです」という確認情報を含む場合は、ユーザの第２意図が第１意図の返答情報で示される意図であると判断してよい。

コア部分は、返答情報に関連する想定可能な説明を決定するように構成され、コア部分は、返答情報を説明するためにユーザにより使用される語彙をキーワードから解析して、その語彙に基づきサービス内容を取得し、次に、サービス内容で示されるサービスをユーザに提供してよい。本実施形態では、サードパーティのクラウドサービスが、サービス内容で示されるサービスを提供してもよいし、車内モジュールが、サービス内容で示されるサービスを提供してもよいし、車載端末が、サービス内容で示されるサービスを提供してもよいし、自動車企業が、サービス内容で示されるサービスを提供してもよい。車載端末は、車両上の車内モジュール以外の別の端末、例えば、車載ディスプレイ、車載空調装置、または車載スピーカであってよい。当然ながら、サードパーティのクラウドサービス、車内モジュール、車載端末、および自動車企業のうちの２つまたはそれより多くが、サービス内容で示されるサービスを共同で提供してよい。なお、動的目標言語モデルの前端部分およびコア部分はどちらも返答情報に基づき取得されるので、前端部分を使用することにより取得される第２意図と、コア部分を使用することにより取得されるサービス内容とはどちらも第１意図に関連しており、第１意図とは無関係な音声信号が無視される。従って、本願の本実施形態では、音声認識を行う効果が比較的良好であり、その結果、提供されるサービスが無関係な音声信号の干渉に起因してユーザ要求から逸脱するのが回避され、ユーザエクスペリエンスが向上する。

オプションで、動的目標言語モデルは更に後端部分を含み、後端部分は、更なる意図が存在するかどうかを判断するように構成される。方法は更に、動的目標言語モデルを呼び出して更なる意図を決定し、かつ、動的目標言語モデルの後端部分を使用することによりキーワードに基づき更なる意図を解析する段階を含む。

オプションで、後端部分は後端指示語を含む。動的目標言語モデルを呼び出して更なる意図を決定し、かつ、動的目標言語モデルの後端部分を使用することによりキーワードに基づき更なる意図を解析する段階は、後端部分を使用することによりキーワードに基づき、参照後端指示語と参照後端指示語が位置する時点とを解析する段階と、第１意図および第２意図を参照して参照後端指示語に基づき動的目標言語モデルを更新して、更新された目標言語モデルを取得する段階と、更新された目標言語モデルを呼び出して、キーワードと参照後端指示語が位置する時点とに基づき更なる意図を解析する段階とを含む。更なる意図を解析することにより、より正確なサービスが更に提供され得る。

オプションで、音声信号を取得する段階の前に、方法は更に、過去の音声信号をバッファリングする段階を含み、音声信号を解析してキーワードを生成する段階は、音声信号を解析し、かつ、過去の音声信号を使用することによりコンテキスト検出を行ってキーワードを生成する段階を含む。過去の音声信号を使用することによりコンテキスト検出が行われ、その結果、認識されるキーワードが現在のシナリオにより適しており、音声認識の精度が更に向上する。

オプションで、方法は更に、動的目標言語モデルを呼び出して第２意図およびサービス内容を決定する段階の後、第２意図を確認して、確認された第２意図を取得する段階を含む。

オプションで、第２意図を確認して、確認された第２意図を取得する段階は、ユーザに第２意図の確認情報を送信し、ユーザによりフィードバックされる第２意図を取得し、かつ、ユーザによりフィードバックされる第２意図を、確認された第２意図として使用する段階を含む。第２意図が確認され、その結果、第２意図がより正確になり、より正確なサービス内容が提供される。

オプションで、第１意図の返答情報に基づき動的目標言語モデルを取得する段階は、第１意図の返答情報を参照形式に変換して参照形式の返答情報を取得し、かつ、参照形式の返答情報に基づき動的目標言語モデルを取得または生成する段階を含む。異なる提供者によって異なる形式の返答情報が提供され得るので、返答情報を参照形式に変換して返答情報の形式を統一し、返答情報を受信し易くする。異なる適用分野における返答情報は異なる参照形式に変換され、その結果、同じ適用分野における返答情報は同じ形式になる。

オプションで、参照形式の返答情報に基づき動的目標言語モデルを取得または生成する段階は、訓練された言語モデルを重み付き有限状態トランスデューサに変換し、かつ、重み付き有限状態トランスデューサを動的目標言語モデルとして使用する段階であって、訓練された言語モデルは、参照形式の返答情報と参照語彙とを訓練することにより取得される、段階を含む。参照語彙は、以下に限定されるわけではないが、参照形式の返答情報内の語彙に対応する分類名と、代表表現語とを含む。

オプションで、参照形式の返答情報に基づき動的目標言語モデルを取得または生成する段階は、訓練された言語モデルを重み付き有限状態トランスデューサに変換し、かつ、重み付き有限状態トランスデューサを第１言語モデルとして使用する段階であって、訓練された言語モデルは、参照形式の返答情報を訓練することにより取得され、返答情報の長さは基準長以上である、段階と、参照形式の返答情報に基づき第２言語モデルを取得することであって、返答情報の長さは基準長より短い、取得することと、参照語彙に基づき第３言語モデルを取得することとを行う段階と、第１言語モデルと、第２言語モデルと、第３言語モデルとを組み合わせて総合言語モデルを取得し、かつ、総合言語モデルを動的目標言語モデルとして使用する段階とを含む。

オプションで、参照形式の返答情報に基づき動的目標言語モデルを取得または生成する段階は、参照形式の返答情報に基づき単語コンフュージョンネットワークを取得する段階であって、返答情報の長さは基準長以上であり、単語コンフュージョンネットワーク内の各語彙は遷移確率を有する、段階と、各語彙のペナルティ重みを算出し、各語彙のペナルティ重みに基づき単語コンフュージョンネットワークを重み付き有限状態トランスデューサに変換し、かつ、重み付き有限状態トランスデューサを第１言語モデルとして使用する段階と、参照形式の返答情報に基づき第２言語モデルを取得することであって、返答情報の長さは基準長より短い、取得することと、参照語彙に基づき第３言語モデルを取得することとを行う段階と、第１言語モデルと、第２言語モデルと、第３言語モデルとを組み合わせて総合言語モデルを取得し、かつ、総合言語モデルを動的目標言語モデルとして使用する段階とを含む。

オプションで、各語彙のペナルティ重みを算出する段階は、任意の語彙について、語彙の遷移確率の負対数値をペナルティ重みとして使用する段階を含む。語彙の遷移確率は、語彙が位置するカテゴリにおける語彙の出現頻度を示すために使用され、語彙が位置するカテゴリにおける語彙の出現頻度が高いほど遷移確率が高く、遷移確率の負対数値が小さいことを示し、すなわち、ペナルティ重みは出現頻度に反比例する。このようにして、目標言語モデルは、語彙が位置するカテゴリにおける出現頻度が高い語彙をより適切に解析することができる。

オプションで、各語彙のペナルティ重みを算出する段階は、任意の語彙について、語彙を含む参照形式の返答情報の数の対数値をペナルティ重みとして使用する段階を含む。独自性の強い語彙、すなわち、数が比較的少ない参照形式の返答情報に含まれる語彙に対してより小さなペナルティ重みが与えられ、その結果、目標言語モデルは、これらの独自性の強い語彙をより適切に解析することができる。

オプションで、各語彙のペナルティ重みを算出する段階は、任意の語彙について、参照形式の返答情報における語彙の出現回数の対数値をペナルティ重みとして使用する段階を含む。独自性の強い語彙、すなわち、出現回数が少ない語彙はペナルティ確率が低くなり、その結果、動的目標言語モデルは、独自性の強い語彙をより適切に解析することができる。

ある態様によれば、音声認識装置が提供される。
装置は、第１意図の返答情報に基づき動的目標言語モデルを取得または生成するように構成される第１取得モジュールであって、動的目標言語モデルは前端部分およびコア部分を含み、コア部分は、返答情報に関連する想定可能な説明を決定するように構成され、前端部分は、返答情報の確証的情報の説明を決定するように構成される、第１取得モジュールと、音声信号を取得し、かつ、音声信号を解析してキーワードを生成するように構成される第２取得モジュールと、動的目標言語モデルを呼び出して第２意図およびサービス内容を決定するように構成される第１決定モジュールであって、動的目標言語モデルの前端部分は、キーワードに基づき第２意図を解析し、動的目標言語モデルのコア部分は、キーワードに基づきサービス内容を解析する、第１決定モジュールとを含む。

オプションで、動的目標言語モデルは更に後端部分を含み、後端部分は、更なる意図が存在するかどうかを判断するように構成される。装置は更に、動的目標言語モデルを呼び出して更なる意図を決定し、かつ、動的目標言語モデルの後端部分を使用することによりキーワードに基づき更なる意図を解析するように構成される第２決定モジュールを含む。

オプションで、後端部分は後端指示語を含み、第２決定モジュールは、後端部分を使用することによりキーワードに基づき、参照後端指示語と参照後端指示語が位置する時点とを解析することと、第１意図および第２意図を参照して参照後端指示語に基づき動的目標言語モデルを更新して、更新された目標言語モデルを取得することと、更新された目標言語モデルを呼び出して、キーワードと参照後端指示語が位置する時点とに基づき更なる意図を解析することとを行うように構成される。

オプションで、装置は更に、過去の音声信号をバッファリングするように構成されるバッファモジュールを含み、第２取得モジュールは、音声信号を解析し、かつ、過去の音声信号を使用することによりコンテキスト検出を行ってキーワードを生成するように構成される。

オプションで、装置は更に、第２意図を確認して、確認された第２意図を取得するように構成される確認モジュールを含む。

オプションで、確認モジュールは、ユーザに第２意図の確認情報を送信し、ユーザによりフィードバックされる第２意図を取得し、かつ、ユーザによりフィードバックされる第２意図を、確認された第２意図として使用するように構成される。

オプションで、第１取得モジュールは、第１意図の返答情報を参照形式に変換して参照形式の返答情報を取得し、かつ、参照形式の返答情報に基づき動的目標言語モデルを取得または生成するように構成される。

オプションで、第１取得モジュールは、訓練された言語モデルを重み付き有限状態トランスデューサに変換し、かつ、重み付き有限状態トランスデューサを動的目標言語モデルとして使用することであって、訓練された言語モデルは、参照形式の返答情報と参照語彙とを訓練することにより取得される、使用することを行うように構成される。

オプションで、第１取得モジュールは、訓練された言語モデルを重み付き有限状態トランスデューサに変換し、かつ、重み付き有限状態トランスデューサを第１言語モデルとして使用することであって、訓練された言語モデルは、参照形式の返答情報を訓練することにより取得され、返答情報の長さは基準長以上である、使用することと、参照形式の返答情報に基づき第２言語モデルを取得することであって、返答情報の長さは基準長より短い、取得することと、参照語彙に基づき第３言語モデルを取得することとを行うことと、第１言語モデルと、第２言語モデルと、第３言語モデルとを組み合わせて総合言語モデルを取得し、かつ、総合言語モデルを動的目標言語モデルとして使用することとを行うように構成される。

オプションで、第１取得モジュールは、参照形式の返答情報に基づき単語コンフュージョンネットワークを取得するように構成される第１取得ユニットであって、返答情報の長さは基準長以上であり、単語コンフュージョンネットワーク内の各語彙は遷移確率を有する、第１取得ユニットと、各語彙のペナルティ重みを算出し、各語彙のペナルティ重みに基づき単語コンフュージョンネットワークを重み付き有限状態トランスデューサに変換し、かつ、重み付き有限状態トランスデューサを第１言語モデルとして使用するように構成される算出ユニットと、参照形式の返答情報に基づき第２言語モデルを取得することであって、返答情報の長さは基準長より短い、取得することと、参照語彙に基づき第３言語モデルを取得することとを行うように構成される第２取得ユニットと、第１言語モデルと、第２言語モデルと、第３言語モデルとを組み合わせて総合言語モデルを取得し、かつ、総合言語モデルを動的目標言語モデルとして使用するように構成される組み合わせユニットとを含む。

オプションで、算出ユニットは、任意の語彙について、語彙の遷移確率の負対数値をペナルティ重みとして使用するように構成される。

オプションで、算出ユニットは、任意の語彙について、語彙を含む参照形式の返答情報の数の対数値をペナルティ重みとして使用するように構成される。

オプションで、算出ユニットは、任意の語彙について、参照形式の返答情報における語彙の出現回数の対数値をペナルティ重みとして使用するように構成される。

ある態様によれば、音声認識デバイスが提供される。デバイスはメモリおよびプロセッサを含む。メモリは少なくとも１つの命令を記憶し、少なくとも１つの命令は、本願の実施形態の第１態様または第１態様の任意の想定可能な実装における方法を実装するためにプロセッサによりロードおよび実行される。

オプションで、１つまたは複数のプロセッサがあり、１つまたは複数のメモリがある。

オプションで、メモリはプロセッサと統合されてよく、または、メモリおよびプロセッサは別個に配置される。

特定の実装プロセスにおいて、メモリは、非一時的（ｎｏｎ－ｔｒａｎｓｉｔｏｒｙ）なメモリ、例えば、リードオンリメモリ（ｒｅａｄｏｎｌｙｍｅｍｏｒｙ、ＲＯＭ）であってよい。メモリおよびプロセッサは１つのチップに統合されてもよいし、異なるチップに配置されてもよい。本願の本実施形態では、メモリの種類とメモリおよびプロセッサの配置方式とについて限定しない。

別の態様によれば、コンピュータ可読記憶媒体が提供される。コンピュータ可読記憶媒体はプログラムまたは命令を記憶し、命令は、上述の音声認識方法のいずれか１つを実装するためにプロセッサによりロードおよび実行される。

コンピュータプログラム（製品）が更に提供される。コンピュータプログラム（製品）はコンピュータプログラムコードを含む。コンピュータ上でコンピュータプログラムコードが実行されると、上述の音声認識方法のいずれか１つをコンピュータに行わせることができる。

チップが更に提供される。チップはプロセッサを含む。プロセッサは、メモリに記憶されている命令を呼び出し実行して、チップがインストールされている通信デバイスに、上述の音声認識方法のいずれか１つを行わせるように構成される。

別のチップが更に提供される。チップは、入力インタフェース、出力インタフェース、プロセッサ、およびメモリを含む。入力インタフェース、出力インタフェース、プロセッサ、およびメモリは、内部接続パスを介して接続される。プロセッサは、メモリ内のコードを実行するように構成される。コードが実行されると、プロセッサは、上述の音声認識方法のいずれか１つを行うように構成される。

本願の実施形態で提供する技術的解決策によって、少なくとも以下の有益な効果がもたらされる。

本願の実施形態では、第１意図の返答情報に基づき前端部分とコア部分とを含む動的目標言語モデルを取得または生成し、音声信号を解析してキーワードを取得した後、動的目標言語モデルを呼び出してキーワードを解析することで第２意図およびサービス内容を取得する。動的目標言語モデルは第１意図の返答情報に基づき取得されるので、動的目標言語モデルを使用して解析することにより取得される第２意図およびサービス内容はどちらも第１意図に関連している。従って、本願の実施形態では、第１意図と無関係な音声が無視され、すなわち、複数の意図を含む不連続音声を認識することができ、その結果、提供されるサービスの内容がユーザ要求から逸脱せず、認識効果が良好であり、ユーザエクスペリエンスが向上する。

本願で提供する技術的解決策は、少なくとも以下の有益な効果を含む。

本願のある実施形態に係る実装環境の概略図である。

本願のある実施形態に係る音声認識方法を実装するためのモジュールの構造図である。

本願のある実施形態に係る音声認識方法のフローチャートである。

本願のある実施形態に係る言語モデルの構造の概略図である。

本願のある実施形態に係る音声認識のフローチャートである。

本願のある実施形態に係る単語コンフュージョンネットワークの構造の概略図である。

本願のある実施形態に係る音声認識装置の構造の概略図である。

本願の目的、技術的解決策、および利点をより明確にするために、以下では添付図面を参照しながら本願の実装について更に詳細に説明する。

人工知能技術の開発に伴い、生活領域では人工知能システムが広く使用されている。音声認識システムは人工知能システムのうちの１つである。音声認識システムが使用されると、ユーザは音声認識システムに音声命令を送信し、音声認識システムは、その音声命令に対して音声認識を行い、ユーザ命令を理解し、そのユーザ命令に従ってユーザに質問をする必要がある。次に、音声認識システムは、その質問に応答してユーザにより送信された返答音声を認識し、ユーザ返答を理解し、そのユーザ返答で示されるサービスを提供して、ユーザ要求を満たす。従って、音声認識を行う方法がユーザ要求を満たすための鍵となる。

しかしながら、ユーザにより送信される音声は通常自由自在である。例えば、複数ユーザの車内ナビゲーションシナリオでは、ユーザと車内モジュールとの間で以下の会話が行われ得る。ユーザ：（車内モジュールに対して）近くの四川料理店を探すのを手伝ってください。車内モジュール：（ユーザに対して）四川料理店Ａに行きたいですか？ユーザ：（車両内の別のユーザに対して）正午です。駐車の問題はありますか？（車内モジュールに対して）はい、四川料理店Ａです。

この対話は、関連技術で提供される方法を使用することにより行われる。この場合は、車内モジュールの音声認識システムが音声命令に従って質問をした後、質問における「四川料理店Ａ」という語彙を言語モデルに統合して、調整後に取得される言語モデルを取得してよい。次に、ユーザが「四川料理店Ａ」を使用することにより「はい、四川料理店Ａです」という返答音声を送信する場合は、調整後に取得される言語モデルが返答音声を認識してよい。しかしながら、上述の対話では、ユーザはまず、車両内の別のユーザと通信するために無関係な音声を送信する。従って、調整後に取得される言語モデルは無関係な音声も返答音声として認識し、それによって理解に誤りが生じる。関連技術で提供される音声認識方法は認識効果およびユーザエクスペリエンスに乏しいことが分かる。

本願のある実施形態は、音声認識方法を提供するものであり、方法は、図１に示す実装環境で使用されてよい。図１は、オーディオデバイス、メモリ、および中央処理装置（ｃｅｎｔｒａｌｐｒｏｃｅｓｓｉｎｇｕｎｉｔ、ＣＰＵ）を含む。オーディオデバイスは、マイクロフォン配列（ｍｉｃｒｏｐｈｏｎｅａｒｒａｙ）およびスピーカ（ｓｐｅａｋｅｒ）を含み、メモリは、音声認識を行うように構成されるモジュールのプログラムまたは命令を記憶する。オーディオデバイス、メモリ、およびＣＰＵは、データバス（ｄａｔａｂｕｓ、Ｄ－Ｂｕｓ）を介して通信可能に接続される。このようにして、ＣＰＵは、マイクロフォン配列を呼び出してユーザにより送信される音声信号を収集し、収集された音声信号に基づき、モジュールの、メモリに記憶されているプログラムまたは命令を実行し、スピーカを呼び出して実行結果に基づきユーザに音声信号を送信する。

更に、図１を参照されたい。ＣＰＵは、ゲートウェイ（ｇａｔｅｗａｙ）を介してクラウドサービスにアクセスして、クラウドサービスにより返信されるデータを取得してもよい。ＣＰＵは更に、ゲートウェイを介してコントローラエリアネットワークバス（ｃｏｎｔｒｏｌｌｅｒａｒｅａｎｅｔｗｏｒｋｂｕｓ、ＣＡＮ－Ｂｕｓ）にアクセスして、別のデバイスのステータスを読み取り、制御してよい。

オプションで、図１に示す実装環境の概略図では、音声認識を行うように構成されるモジュールの、メモリに記憶されているプログラムまたは命令は、図２の循環音声バッファモジュール、ＡＭモジュール、ＳＬモジュール、動的ＬＭモジュール、ＳＬＵモジュール、ＤＭモジュール、およびＮＣＭプロセスなどのプログラムまたは命令を含む。図１のＣＰＵは、モジュールの、メモリに記憶されているプログラムまたは命令を実行して、音声認識を実装する。以下では、図２に示す、本実施形態で提供する音声認識方法を実装するためのモジュールの機能を参照しながら音声認識プロセスについて説明する。

前端言語（前端音声）モジュールは、ユーザにより送信される音声信号を交通騒音および音楽などの非音声信号と区別するように構成され、更には、ユーザにより送信される音声信号に対して騒音の低減および増強などの処理を行うように構成され、その後の識別および理解の精度が向上する。

循環音声バッファ（循環バッファ）モジュールは、前端言語モデルにより処理される音声信号をバッファリングするように構成され、その結果、記憶されている音声信号を複数回にわたって認識および理解することができる。循環音声バッファは基準時間長を有する。バッファリングされた音声信号の時間長が基準時間長より長い場合は、記憶時間の最も長い音声信号が新しい音声信号で上書きされる。

音響モデル（ａｃｏｕｓｔｉｃｍｏｄｅｌ、ＡＭ）モジュールは、循環音声バッファモジュールに記憶されている音声信号を取得し、かつ、その音声信号を音素列に変換するように構成される。

選択的聴取（ｓｅｌｅｃｔｉｖｅｌｉｓｔｅｎｉｎｇ、ＳＬ）モジュールは、動的言語モデル（ｄｙｎａｍｉｃｌａｎｇｕａｇｅｍｏｄｅｌ、ＤｙｎａｍｉｃＬＭ）モジュールを呼び出し、ＡＭモデルにより出力される音素列をキーワードに変換し、かつ、そのキーワードを口語理解（ｓｐｏｋｅｎｌａｎｇｕａｇｅｕｎｄｅｒｓｔａｎｄｉｎｇ、ＳＬＵ）モジュールに送信するように構成される。

ＳＬＵモジュールは、キーワードから意図および意味論的スロットを抽出して、ユーザの音声信号で示される第１意図、第２意図、および更なる意図を理解するように構成される。

対話管理（ｄｉａｌｏｇｕｅｍａｎａｇｅｒ、ＤＭ）モジュールは、第１意図に基づきクラウドサービスからの返答情報を要求するように構成される。

アプリケーション管理（ａｐｐｌｉｃａｔｉｏｎｍａｎａｇｅｒ、ＡＰＰＭａｎａｇｅｒ）モジュールは、クラウドサービス（ｃｌｏｕｄｓｅｒｖｉｃｅ）により返信される返答情報を参照形式の返答情報に変換するように構成される。

対話管理（ｄｉａｌｏｇｕｅｍａｎａｇｅｒ、ＤＭ）モジュールは更に、ＡＰＰマネージャモジュールにより返信される参照形式の返答情報に基づき、関連分野における非連続的な複数意図の（ｎｏｎ－ｃｏｎｔｉｎｕｏｕｓｍｕｌｔｉ－ｉｎｔｅｎｔ、ＮＣＭ）プロセスを開始するように構成され、応答生成（ｒｅｓｐｏｎｓｅｇｅｎｅｒａｔｏｒ、ＲＧ）モジュールを制御して返答内容を生成し、音声再生を行うように構成される。ＤＭモジュールは更に、第２意図および更なる意図に基づきＡＰＰマネージャモジュールに命令を送信して、アプリケーションまたは端末デバイスを制御してサービス内容および更なる意図を実行するように構成される。

アプリケーション管理（ａｐｐｌｉｃａｔｉｏｎｍａｎａｇｅｒ、ＡＰＰＭａｎａｇｅｒ）モジュールは更に、返答情報に対して単語分割、タグ付け、および固有名詞のタグ付けを行うように構成される。アプリケーション管理モジュールは更に、ＤＭモジュールにより送信される命令に従ってアプリケーションおよび端末デバイスを管理して、アプリケーションまたは端末デバイスを制御してサービス内容および更なる意図を実行するように構成される。

図１に示す実装環境に基づき、図３を参照されたい。本願のある実施形態は音声認識方法を提供する。図３に示すように、この方法は以下の段階を含む。

段階２０１：第１意図の返答情報に基づき動的目標言語モデルを取得または生成する。ここで、動的目標言語モデルは前端部分およびコア部分を含み、コア部分は、返答情報に関連する想定可能な説明を決定するように構成され、前端部分は、返答情報の確証的情報の説明を決定するように構成される。

第１意図は、ユーザとシステムとの間の会話が開始した後にユーザの音声命令信号を解析することにより取得される意図である。例として、上述の口語対話を使用する。ユーザの音声命令信号は、ユーザにより送信される「近くの四川料理店を探すのを手伝ってください」という音声である。音声命令信号を解析することは、音響モデルを呼び出して音声命令信号を音素列に変換することであって、音素は言語の最小音素単位である（例えば、中国語で、音素とは最初または最後を指す）、変換することと、次に、言語モデルを呼び出して音素列を語系列に変換することであって、語系列は音声命令である、変換することとを含む。言語モデルとは、訓練セットに基づき訓練された言語モデルを指す。音声認識が適用される分野に基づき、適切な言語モデルが呼び出されてよい。

語系列が取得された後、語系列を解析して第１意図を取得してよい。第１意図は意図および意味論的スロットを含む。意味論的スロットとは、明確な定義または概念を有する語系列内の語彙を指す。例として引き続き、上述の口語対話を使用する。語系列が「近くの四川料理店を探すのを手伝ってください」である場合は、解析により取得される意図が「ナビゲーション」であり、意味論的スロットが「近くの」および「四川料理店」であり、その結果、取得される第１意図が「近くの四川料理店にナビゲートする」である。次に、第１意図の返答情報は、取得される第１意図に基づき取得されてよく、第１意図の返答情報の内容が意味論的スロットの要件を満たす。返答情報を取得する方式としては、第１意図をクラウドサービスに送信して、クラウドサービスにより返信される返答情報を取得してよい。代替的に、複数の意図と返答情報との間マッピング関係をメモリに記憶してもよく、そのマッピング関係に基づき第１意図に対応する返答情報を検索して返答情報を取得してもよい。

なお、返答情報を取得する方式に関わらず、１つまたは複数の返答情報があってよく、各返答情報は単語列である。更に、複数の返答情報がある場合は、複数の返答情報が選択予定の返答情報として使用されてよく、その結果、ユーザは、複数の返答情報から選択を行うことができる。例として引き続き、上述の口語対話を使用する。１つの返答情報、すなわち、「四川料理店Ａ」があってもよいし、複数の返答情報、例えば、「四川料理店Ａ」、「四川料理店Ｂ」、および「四川料理店Ｃ」があってもよい。本実施形態では、返答情報の数について限定しない。

次に、動的目標言語モデルは、第１意図の取得された返答情報に基づき取得または生成されてよく、動的目標言語モデルは前端部分およびコア部分を含む。前端部分は、返答情報の確証的情報の説明を決定するように構成され、確証的情報は、以下に限定されるわけではないが、確認情報、修正情報、または取り消し情報などを含んでよい。例えば、確認情報は「その通り」および「はい」を含んでよく、修正情報は「そうではありません」および「間違っています」を含んでよく、取り消し情報は「もういいです」および「必要ありません」を含んでよい。コア部分は、返答情報に関連する想定可能な説明、例えば、ユーザが返答情報を直接繰り返す、または、ユーザが返答情報を選択的に繰り返すといった説明を決定するように構成される。

なお、返答情報に基づき動的目標言語モデルを取得または生成するプロセスについては以下で詳細に説明しており、ここでは詳細について説明しない。当然ながら、動的目標言語モデルを取得または生成するプロセスに関わらず、動的目標言語モデルが取得または生成された後、音声信号が更に受信されてよい。

段階２０２：音声信号を取得し、音声信号を解析してキーワードを生成する。

車内モジュールが第１意図に対する返答情報を取得した後、車内モジュールはまた、第１意図に対する返答情報に基づき動的目標言語モデルを取得または生成することに加えて、第１意図の返答情報をユーザに送信して音声信号を取得する。なお、音声信号は、ユーザと車内モジュールとの間の対話の音声信号、すなわち、第１意図の返答情報に関する音声信号を含んでよく、そのユーザと別のユーザとの間の対話の無関係な音声信号を含んでもよい。例として引き続き、上述の口語対話を使用する。ユーザと車内モジュールとの間の対話の音声信号は「はい、四川料理店Ａです」であり、そのユーザと別のユーザとの間の対話の無関係な音声信号は「正午です。駐車の問題はありますか？」である。当然ながら、上述の無関係な音声信号は、そのユーザが別のユーザへ能動的に話し掛ける対話の音声信号を含んでよく、別のユーザがそのユーザへ能動的に話し掛ける対話の音声信号、すなわち、別のユーザにより差し挟まれる音声の音声信号を含んでもよい。本実施形態では、無関係な音声信号について限定しない。

車内モジュールは、音声信号を取得した後、音声信号を解析してキーワードを生成してよい。オプションで、本実施形態では、音声信号を取得する前、方法は更に、過去の音声信号をバッファリングする段階を含む。この場合は、音声信号を解析してキーワードを生成する段階は、音声信号を解析し、かつ、過去の音声信号を使用することによりコンテキスト検出を行ってキーワードを生成する段階を含む。

過去の音声信号は過去時の音声信号である。例えば、上述の口語対話では、第１意図を取得するために使用される「近くの四川料理店を探すのを手伝ってください」という音声命令信号が過去の音声信号として使用されてよい。本実施形態では、循環バッファを使用することにより過去の音声信号がバッファリングされてよい。循環バッファは基準時間長を有する。バッファリングされた過去の音声信号の時間長が基準時間長より長い場合は、バッファ時間の最も長い過去の音声信号が新しい音声信号で上書きされる。この場合、過去の音声信号を使用する必要がある場合は、過去の音声信号が循環バッファから読み取られる。当然ながら、本実施形態では過去の音声信号をバッファリングする方式について限定しないものとし、過去の音声をバッファリングする要件に基づき別の方式が選択されてよい。

更に、音声信号を解析する方式として、車内モジュールは依然として、音声認識が適用される分野に基づき適切な音響モデルと言語モデルとを呼び出し、その音響モデルおよび言語モデルを使用することにより音声信号を解析して、最初のキーワードを取得してよい。ユーザと車内モジュールとの間の対話の音声信号は、第１意図の返答情報に関するものであるため、ユーザと車内モジュールとの間の対話の音声信号を解析することにより生成される最初のキーワードは、第１意図に関連している。しかしながら、そのユーザと別のユーザとの間の対話の無関係な音声信号を解析することにより生成される最初のキーワードは、第１意図と無関係である。従って、コンテキスト検出を行うために過去の音声信号を使用する必要があり、その結果、最初のキーワードに基づき生成されるキーワードは第１意図にのみ関連しており、すなわち、第１意図と無関係な最初のキーワードは無視される。

過去の音声信号を使用することによりコンテキスト検出を行う方式は、最初のキーワードのうち過去の音声信号に関連するキーワードを検出することで、過去の音声信号に対応する語系列に関連するキーワードが、生成されたキーワードとして使用されるようにすることを含んでよい。例えば、「正午です。駐車の問題はありますか？はい、四川料理店Ａです」という音声信号が解析され、取得される最初のキーワードが「正午」、「駐車」、「はい」、および「四川料理店Ａ」を含む。最初のキーワードのうち、「近くの四川料理店を探すのを手伝ってください」という過去の音声信号に関連するキーワードが「はい」および「四川料理店Ａ」を含む。従って、「正午」および「駐車」が無視されてよく、「はい」および「四川料理店Ａ」のみが、生成されたキーワードとして使用される。

当然ながら、本実施形態では、過去の音声信号を使用することによりコンテキスト検出を行う方式について限定しない。キーワードを検出および生成する方式に関わらず、キーワードが生成された後、キーワードを解析するように動的目標言語モデルをトリガおよび呼び出して、第２意図およびサービス内容を決定してよい。詳細については段階２０３で説明する。

段階２０３：動的目標言語モデルを呼び出して第２意図およびサービス内容を決定する。ここで、動的目標言語モデルの前端部分は、キーワードに基づき第２意図を解析し、動的目標言語モデルのコア部分は、キーワードに基づきサービス内容を解析する。

段階２０１の説明からは、動的目標言語モデルが前端部分およびコア部分を含むことが分かる。動的目標言語モデルは第１意図の返答情報に基づき取得されるので、動的目標言語モデルを使用することにより決定される第２意図およびサービス内容はどちらも第１意図に関連している。前端部分は、返答情報の確証的情報の説明を決定するように構成される。従って、前端部分を使用してキーワードを解析することによりキーワード内の確証的情報が取得されてよく、キーワード内の確証的情報を使用することによりユーザの第２意図が更に取得される。例として、上述の口語対話を使用する。第１意図の返答情報は「四川料理店Ａに行きたいですか？」であり、解析により取得されるキーワードが「はい」および「四川料理店Ａ」である。この場合は、前端部分を使用して解析することにより、キーワードのうち「はい」が取得されてよく、次に、「四川料理店Ａに行く」というユーザの第２意図が取得される。更に、コア部分を使用して解析することにより、キーワードのうち「四川料理店Ａ」が取得され、現在の車内ナビゲーションシナリオを参照して「四川料理店Ａにナビゲートする」というサービス内容が取得される。

第１意図の返答情報がオプションを１つのみ含む場合は、前端部分を使用することによりユーザの第２意図が決定され得ることが分かる。第１意図の返答情報が２つまたはそれより多くのオプションを含む場合は、前端部分およびコア部分を使用することによりユーザの第２意図が決定され得る。例えば、第１意図の返答情報が「以下のうちどちらを選択したいですか？第１オプションが四川料理店Ａで、第２オプションが四川料理店Ｂです」であり、解析により取得されるキーワードが依然として「はい」および「四川料理店Ａ」である場合は、前端部分を使用することにより、キーワードのうちの「はい」という確証的情報が依然として解析され得る。しかしながら、「はい」のみを使用することにより、ユーザの第２意図が「四川料理店Ａ」と「四川料理店Ｂ」のどちらであるかを判断することはできない。従って、コア部分を使用して解析することにより、キーワードのうち「四川料理店Ａ」を取得して、最終的に、ユーザの第２意図が「四川料理店Ａに行く」であり、サービス内容が「四川料理店Ａにナビゲートする」であると判断する必要がある。

なお、前端部分でキーワードを解析することにより取得される確証的情報が確認情報、例えば、上述の口語対話における「はい」を含む場合は、キーワードは更に、サービス内容を取得するためにコア部分を使用することにより解析されてよい。前端部分でキーワードを解析することにより取得される確証的情報が修正情報または取り消し情報、例えば、「いいえ」および「間違っています」などの語彙を含む場合は、これは、ユーザが返答情報を承認せず、返答情報に応答しないかもしれないことを示し、コア部分を使用して解析することによりサービス内容を取得する必要はない。代わりに、別の返答情報が再取得され、別の返答情報に基づき新しい動的目標言語モデルが取得されて、新しい動的目標言語モデルを使用することにより音声認識が完了する。

当然ながら、動的目標言語モデルを呼び出すことにより、第２意図およびサービス内容に加えて、第２意図およびサービス内容の信頼水準並びに音声信号内のミュート信号セグメントなどの情報が更に取得されてよく、信頼水準は、第２意図およびサービス内容の精度を示すために使用される。

第２意図およびサービス内容が取得された後、サービス内容で示されるサービスがトリガおよび提供されてよい。例えば、上述の口語対話におけるサービス内容は「四川料理店Ａにナビゲートする」である。この場合は、現在の場所（すなわち、上述の口語対話が行われる場所）から「四川料理店Ａ」が位置する場所にユーザをナビゲートするためのナビゲーションデバイスを呼び出すことを含む、サービス内容が実行される。

オプションの実装では、サービス内容が実行される前、本実施形態で提供する方法は更に、第２意図を確認して、確認された第２意図を取得する段階と、確認された第２意図を実行する段階とを含む。この実装では、動的目標言語モデルが第１意図の返答情報に基づき取得または生成されるが、動的目標言語モデルを使用することにより決定される第２意図およびサービス内容が依然として第１意図とは一致していないかもしれないと考えられる。従って、サービス内容が実行される前に、第２意図を確認して、第２意図が第１意図と確実に一致しているようにする。確認された第２意図が取得された後、確認された第２意図は実行される。

第２意図が第１意図と一致していることは、以下に限定されるわけではないが、第２意図が第１意図の返答情報に対応する（例えば、「四川料理店Ａに行く」という第２意図が第１意図の返答情報「四川料理店Ａ」に対応する）ことを含む。代替的に、第２意図は、第１意図に含まれる制限を満たす（例えば、「四川料理店Ａに行く」という第２意図は、第１意図に含まれる「近くの」という距離制限を満たす）。

オプションで、第２意図を確認して、確認された第２意図を取得する方式は、ユーザに第２意図の確認情報を送信し、ユーザによりフィードバックされる第２意図を取得し、かつ、ユーザによりフィードバックされる第２意図を、確認された第２意図として使用することを含む。

上述の説明からは、動的目標言語モデルを使用することにより第２意図およびサービス内容の信頼水準が取得され得ることが分かる。従って、本実施形態では、異なる信頼水準に基づき異なる確認情報をユーザに送信して、第２意図を確認してよい。例えば、第２意図は「四川料理店Ａに行く」である。信頼水準が閾値より高い場合は、これは、第２意図が比較的信頼できることを示す。従って、第２意図は間接的な確認方式で確認されてよい。例えば、デフォルトで第２意図が正しいと判断するための音声「四川料理店Ａを選択しています」を第２意図の確認情報としてユーザに送信して、ユーザにより返信される第２意図を取得する。信頼水準が閾値より高くない場合は、これは、第２意図の信頼水準が比較的低いことを示す。従って、第２意図は直接的な確認方式で確認される。例えば、「本当に四川料理店Ａを選択したいですか？」という音声がユーザに送信される。

間接的な確認方式で送信される確認情報と、直接的な確認方式で送信される確認情報とはどちらも音声確認情報である。ユーザによりフィードバックされる第２意図を、音声確認情報を使用することにより依然として取得できない場合は、別の形態の確認情報、例えば、テキスト確認情報を選択してユーザの第２意図を確認してよい。オプションで、端末がユーザに第１意図の返答情報を表示し、その結果、ユーザは、その端末を使用することにより任意の返答情報を選択し、ユーザにより選択される返答情報で示される意図を、確認された第２意図として使用し、確認された第２意図を実行して、音声認識を完了する。

次に、上述の口語対話を拡張して以下の複雑な対話を取得する。ユーザ：（車内モジュールに対して）近くの四川料理店を探すのを手伝ってください。車内モジュール：（ユーザに対して）四川料理店Ａに行きたいですか？ユーザ：（車両内の別のユーザに対して）正午です。駐車の問題はありますか？（車内モジュールに対して）はい、四川料理店Ａです。更に、駐車スペースを探すのを手伝ってください。

この複雑な対話では、ユーザが「はい、四川料理店Ａです」と表現した後、ユーザが更に「更に、駐車スペースを探すのを手伝ってください」という更なる意図を表現し、その結果、この複雑な対話によって複数意図の対話が形成されることが分かる。

この点で、オプションの実装では、動的目標言語モデルは更に後端部分を含み、後端部分は、更なる意図が存在するかどうかを判断するように構成される。従って、本実施形態で提供する方法は更に、動的目標言語モデルを呼び出して更なる意図を決定し、かつ、動的目標言語モデルの後端部分を使用することによりキーワードに基づき更なる意図を解析して、上述の複数意図の対話における各意図を認識する段階を含む。

この実装では、前端部分を使用することにより第２意図を取得し、かつ、コア部分を使用することによりサービス内容を取得する段階に加えて、キーワードは更に、更なる意図を取得するために後端部分を使用ことにより解析される。前端部分、コア部分、および後端部分の概略図については、図４を参照されたい。図４では、外れ語彙（ｏｕｔｏｆｖｏｃａｂｕｌａｒｙ、ＯＯＶ）が、辞書にない語彙を表し、辞書は、音素列に基づき単語を取得するために使用される。ｅｐｓはジャンプエッジを表し、オプションの部分を示すために使用される。

オプションで、後端部分は後端指示語を含み、後端指示語は、以下に限定されるわけではないが、「加えて」、「も」、および「ついでに」などの語彙を含む。例えば、上述の複数意図の対話では、後端指示語が「加えて」である。ユーザによる後端指示語の説明は通常比較的固定されているので、複数の後端指示語を含むセットが、言語モデルを訓練するためのコーパスとして使用されてよく、訓練された言語モデルが後端部分として使用される。従って、動的目標言語モデルを呼び出して更なる意図を決定し、かつ、動的目標言語モデルの後端部分を使用することによりキーワードに基づき更なる意図を解析する段階は、後端部分を使用することによりキーワードに基づき、参照後端指示語と参照後端指示語が位置する時点とを解析する段階と、第１意図および第２意図を参照して参照後端指示語に基づき動的目標言語モデルを更新して、更新された目標言語モデルを取得する段階と、更新された目標言語モデルを呼び出して、キーワードと参照後端指示語が位置する時点とに基づき更なる意図を解析する段階とを含む。

参照後端指示語は、コーパスとして使用される複数の後端指示語のセットにおける１つの単語である。参照後端指示語が存在する場合は、これは、更なる意図がないことを示し、上述のサービス内容で示されるサービスが直接提供されてよい。参照後端指示語が存在しない場合は、これは、更なる意図があることを示し、この場合は、後端部分は更に、参照後端指示語が位置する時点を取得する。

参照後端指示語が存在する場合は、第１意図および第２意図に基づき言語モデルが更に呼び出される。言語モデルは、第１意図および第２意図が位置する分野の言語モデルであってよい。例えば、上述の複数意図の対話において、第１意図および第２意図が位置する分野が「ナビゲーション」である場合は、動的目標言語モデルに取って代わるナビゲーション分野の言語モデルを取得して、更新された目標言語モデルを取得してよい。

次に、参照後端指示語が位置する時点より後のキーワードを解析するために、更新された目標言語モデルを呼び出して、ユーザの更なる意図を取得する。例えば、上述の複数意図の会話では、参照後端指示語が「加えて」である。「加えて」が位置する時点より前の音声信号が「正午です。駐車の問題はありますか？はい、四川料理店Ａです。」である。動的目標言語モデルの前端部分およびコア部分により、この音声信号に含まれるキーワードが解析された。従って、「加えて」が位置する時点より後の音声信号に含まれるキーワード、すなわち、「駐車スペースを探すのを手伝ってください」に含まれるキーワードを解析するために、更新された目標言語モデルを呼び出して、ユーザの更なる意図を取得してよい。

なお、本実施形態は更に、目標言語モデルを更新する別の方法を提供する。この方法では、第１意図および第２意図に基づき言語モデルが取得された後、その言語モデルと後端部分との組み合わせモデルが、更新された目標言語モデルとして使用される。従って、図５を参照されたい。解析により更なる意図を取得した後、更新された目標言語モデルは、周期的な反復を行って、より多くの更なる意図が存在するかどうかを検出してよい。これによって、認識され得る意図の数が増加する。

更に、更なる意図が存在する場合は、更新された目標言語モデルを使用して解析することにより更なる意図が取得された後、以下の方法を使用することにより第２意図が実行される。方法は、更なる意図が存在する場合に、サービス内容および更なる意図を実行する段階を含む。サービス内容が取得された後、サービス内容はすぐには実行されない。代わりに、音声信号に更なる意図が存在するかどうかはまず、後端部分を使用することにより判断される。更なる意図が存在する場合は、更なる意図が取得され、最終的にサービス内容および更なる意図が実行される。取得されたサービス内容は、後端情報を使用することにより、音声信号に更なる意図が存在しないと判断された場合にのみ実行される。

更に、サービス内容および更なる意図を実行する段階は、サービス内容および更なる意図を一緒に実行する段階、またはサービス内容および更なる意図を順次実行する段階を含む。例えば、サービス内容が「四川料理店Ａにナビゲートする」であり、かつ、更なる意図が「曲を再生する」である場合は、サービス内容を実行するプロセスで更なる意図が実行されてよい。すなわち、サービス内容および更なる意図が一緒に実行されてよい。サービス内容が「四川料理店Ａにナビゲートする」であり、かつ、更なる意図が「駐車スペースを探す」である場合は、サービス内容および更なる意図を順次実行する必要がある。更には、異なる実行体により異なるサービス内容および更なる意図が実行されてよい。例えば、異なるサービス内容および更なる意図は、サードパーティのクラウドサービスにより実行されてもよいし、車内モジュールにより実行されてもよいし、車載端末により実行されてもよいし、自動車企業により実行されてもよい。車載端末は、車両上の車内モジュール以外の別の端末、例えば、車載ディスプレイ、車載空調装置、または車載スピーカであってよい。当然ながら、異なるサービス内容および更なる意図は代替的に、サードパーティのクラウドサービス、車内モジュール、車載端末、および自動車企業のうちの２つまたはそれより多くにより実行されてもよい。本願の本実施形態ではこれについて限定しない。

以下では、上述の段階２０１における第１意図の返答情報に基づき動的目標言語モデルを取得または生成するプロセスについて詳細に説明する。
オプションで、第１意図の返答情報に基づき動的目標言語モデルを取得または生成する段階は、第１意図の返答情報を参照形式に変換して参照形式の返答情報を取得し、かつ、参照形式の返答情報に基づき動的目標言語モデルを取得または生成する段階を含む。

上述の説明からは、動的目標言語モデルが少なくとも前端部分およびコア部分を含んでおり、更には後端部分を含み得ることが分かる。前端部分は、返答情報の確証的情報の説明を決定するように構成される。後端部分と同様に、返答情報の確証的情報がユーザにより比較的しっかりと説明されているので、前端部分については、確認、修正、または取り消しに使用される複数の確証的情報を含むセットが、言語モデルを訓練するためのコーパスとして使用されてよい。訓練された言語モデルが前端部分として使用され、その結果、前端部分は、キーワードを解析して確認情報、修正情報、または取り消し情報などの確証的情報を取得する能力を有する。コア部分は、上述した参照形式の返答情報に基づき取得する必要がある。

返答情報は複数の提供者により提供されてよい。異なる提供者によって異なる形式の返答情報が提供され得るので、返答情報を参照形式に変換して返答情報の形式を統一し、返答情報を受信し易くする必要がある。異なる適用分野における返答情報は異なる参照形式に変換されてよく、その結果、同じ適用分野における返答情報は同じ形式になる。例えば、車内ナビゲーションの分野では、返答情報が通常住所である。従って、住所は、国（または地域）、県（または州）、市、地区、道路、および番地の形式で統一され得る。別の例として、関心地点（ｐｏｉｎｔｏｆｉｎｔｅｒｅｓｔ、ＰＯＩ）の分野では、返答情報が通常関心地点に関連している。従って、返答情報は、分類名、住所、電話番号、およびユーザコメントの形式で統一されてよい。分類名は、ホテル、レストラン、モール、ミュージアム、コンサートホール、映画館、スタジアム、病院、またはドラッグストアであってよい。

更には、返答情報が参照形式に変換される前、返答情報に対する単語分割およびタグ付けを行って、参照形式の変換を実装し易くしてよい。単語分割およびタグ付けとは単語列を語彙に分解することを指し、分解により取得された語彙が固有名詞を含む場合は、その固有名詞がタグ付けされてよい。単語分割およびタグ付けはどちらも、人工知能アルゴリズムを使用することにより実装されてよい。本実施形態では、人工知能アルゴリズムは、以下に限定されるわけではないが、条件付き確率場（ｃｏｎｄｉｔｉｏｎａｌｒａｎｄｏｍｆｉｅｌｄ、ＣＲＦ）、長短期記憶（ｌｏｎｇｓｈｏｒｔｔｅｒｍｍｅｍｏｒｙ、ＬＳＴＭ）ネットワーク、および隠れマルコフモデル（ｈｉｄｄｅｎＭａｒｋｏｖｍｏｄｅｌ、ＨＭＭ）を含む。

本実施形態では、参照形式の返答情報が取得された後、動的目標言語モデルは更に、参照形式の返答情報に基づき取得または生成される。オプションで、参照形式の返答情報に基づき目標言語モデルを取得するには、以下の３つの方式がある。

第１取得方式：訓練された言語モデルを重み付き有限状態トランスデューサに変換し、かつ、重み付き有限状態トランスデューサを動的目標言語モデルとして使用する。訓練された言語モデルは、参照形式の返答情報と参照語彙とを訓練することにより取得される。

参照語彙は、以下に限定されるわけではないが、参照形式の返答情報内の語彙に対応する分類名と、代表表現語とを含む。単語分割およびタグ付けなどの方式で参照形式の返答情報内の語彙を取得して、語彙に対応する分類名を更に取得してよい。例えば、「四川料理店Ａ」の分類名は「レストラン」である。代表表現語は、参照形式の任意の返答情報を参照するために使用される。例えば、参照形式の返答情報が複数ある場合は、代表表現語は、「第１オプション」、「真ん中のオプション」、「最後から２番目のオプション」、および「最後のオプション」などを含む。

訓練された言語モデルは、参照形式の返答情報と参照語彙とをコーパスとして使用することにより訓練される最初の言語モデルを含む。オプションで、最初の言語モデルはＮグラムモデルであってよい。Ｎグラムモデルの概略図については、図６を参照されたい。Ｎグラムモデルでは、ある単語の出現確率がその単語の前にあるＮ個の単語にのみ関連しており、他の単語には関連していないことが想定される。例えば、Ｎの値が３である場合は、Ｎグラムモデルが三次モデルであり、この場合は、ある単語の出現確率がその単語の前にある２つの単語に関連している。すなわち、ｉ番目の単語Ｘ_ｉの出現確率がＰ（Ｘ_ｉ｜Ｘ_ｉ－１，Ｘ_ｉ－２）である。従って、Ｎグラムモデルは、１つの単語が別の単語の後に出現する確率、すなわち、２つの単語が隣接して出現する確率を算出することができる。コーパスを使用することによりＮグラムモデルを訓練して、訓練されたＮグラムモデルを取得する。訓練されたＮグラムモデルは、コーパスに含まれる単語が隣接して出現する確率を算出した。

更に、訓練された言語モデルは、重み付き有限状態トランスデューサ（ｗｅｉｇｈｔｅｄｆｉｎｉｔｅｓｔａｔｅｔｒａｎｓｄｕｃｅｒ、ＷＦＳＴ）に変換されてよい。ＷＦＳＴは、辞書に基づき入力音素列を単語に変換し、訓練された言語モデルにより算出される、単語が隣接して出現する確率に基づき、隣接して出現する単語の重みを取得し、その重みに基づきコア情報を出力することができる。コア情報は語系列と見なされ得るため、コア情報の出現確率は、その語系列に含まれ、かつ、隣接して出現する、全ての単語の重みの積である。

更に、訓練された言語モデルの解析範囲は変換により拡大されてよく、訓練された言語モデルは、キーワードを解析することにより返答情報内の語彙と参照語彙とを取得してよく、変換により取得されるＷＦＳＴは、返答情報内の語彙と参照語彙とを解析により取得してよく、返答情報内の語彙、語彙に対応する分類名、または代表表現語のうちの２つまたは３つの組み合わせを取得してもよい。例えば、ＷＦＳＴは、代表表現語の「真ん中のレストラン」と語彙に対応する分類名との組み合わせなどを解析してよい。

ＷＦＳＴは動的目標言語モデルのコア部分であることが分かる。次に、ＷＦＳＴおよび前端部分（またはＷＦＳＴ、前端部分、および後端部分）は、動的目標言語モデルとすることができる。

第２取得方式：訓練された言語モデルを重み付き有限状態トランスデューサに変換し、かつ、重み付き有限状態トランスデューサを第１言語モデルとして使用することであって、訓練された言語モデルは、参照形式の返答情報を訓練することにより取得され、返答情報の長さは基準長以上である、使用することと、参照形式の返答情報に基づき第２言語モデルを取得することであって、返答情報の長さは基準長より短い、取得することと、参照語彙に基づき第３言語モデルを取得することとを行うことと、第１言語モデルと、第２言語モデルと、第３言語モデルとを組み合わせて総合言語モデルを取得し、かつ、総合言語モデルを動的目標言語モデルとして使用することとを行う。

参照語彙については、第１取得方式における説明を参照されたい。ここでは詳細について改めて説明しない。第１取得方式と比較して、第２取得方式では、長さが基準長より短い返答情報と参照語彙とはコーパスとして使用されず、長さが基準長以上の返答情報のみがコーパスとして使用される。訓練された言語モデルは、長さが基準長以上の返答情報をコーパスとして使用することにより訓練される最初の言語モデルであり、最初の言語モデルは依然としてＮグラムモデルであってよい。オプションの実装では、基準長は２、すなわち、２つの単語である。

その理由は、Ｎグラムモデルがバックオフ（ｂａｃｋ－ｏｆｆ）アルゴリズムを使用するからである。バックオフアルゴリズムとは、コーパスに出現していない語系列について、より低次の語系列の出現確率を語系列の出現確率として使用して、Ｎグラムモデルが任意の入力音素列に関する結果を確実に出力できるようにし得ることを意味する。例えば、語系列（Ｘ_ｉ－２，Ｘ_ｉ－１，Ｘ_ｉ）が三次モデルのコーパスに存在しない場合は、モデルは、Ｘ_ｉ番目の単語の出現確率Ｐ（Ｘ_ｉ｜Ｘ_ｉ－１，Ｘ_ｉ－２）を算出しない。語系列（Ｘ_ｉ－２，Ｘ_ｉ－１，Ｘ_ｉ）がユーザにより使用される場合は、より低次（二次）のＰ（Ｘ_ｉ｜Ｘ_ｉ－１）に基づきＰ（Ｘ_ｉ｜Ｘ_ｉ－１，Ｘ_ｉ－２）を推定して（Ｘ_ｉ－２，Ｘ_ｉ－１，Ｘ_ｉ）を解析する。

訓練された言語モデルは、返答情報に関連する想定可能な説明を決定するために使用され、ユーザは通常、異なる長さの返答情報に対して異なる音声信号を送信して返答情報を繰り返すことで、返答情報を確認または選択する。長さが基準長より短い返答情報については、ユーザは通常、返答情報全体の中の幾つかの単語を繰り返す代わりに、返答情報全体を繰り返す。長さが基準長より短い返答情報をコーパスとして使用することによりバックオフアルゴリズムを含むＮグラムモデルが訓練される場合は、訓練された言語モデルにより、出現確率が比較的低い幾つかの語系列が算出される。これは、訓練された言語モデルの解析効果に影響を及ぼす。基準長は、シナリオまたは経験に基づき設定されてもよいし、音声認識プロセスで調整されてもよい。本願の本実施形態ではこれについて限定しない。

例えば、車内ナビゲーションシナリオでは、「東方明珠電視塔」は、長さが１の返答情報として使用され得る。「東方明珠電視塔（ＤｏｎｇＦａｎｇＭｉｎｇＺｈｕ）」がコーパスとして使用される場合は、訓練された言語モデルが「ＤｏｎｇＭｉｎｇ」および「ＦａｎｇＺｈｕ」などの語系列を提供することになり、語系列の出現確率が低い。従って、本実施形態では、バックオフアルゴリズムを使用しない第２言語モデルが、長さが基準長より短い返答情報に基づき取得され、第２言語モデルがキーワード内の返答情報のみを解析し、返答情報の全長が基準長より短い。

更に、語彙に対応する分類名と代表表現語とを含む参照語彙については、ユーザの表現方式が比較的固定されており、語彙に対応する分類名と代表表現語との組み合わせの数が比較的限定されている。従って、語彙に対応する分類名、代表表現語、および分類名と代表表現語との組み合わせを訓練用のコーパスとして使用して、バックオフアルゴリズムを使用しない第３言語モデルを取得することができる。

しかしながら、長さが基準長以上の返答情報については、ユーザは通常、返答情報全体の中から幾つかの単語を選択して繰り返す。従って、長さが基準長以上の返答情報を、Ｎグラムモデルを訓練するためのコーパスとして使用して、訓練された言語モデルを取得してよい。次に、訓練された言語モデルをＷＦＳＴに変換して、バックオフアルゴリズムを使用する第１言語モデルを取得する。第１言語モデルは、キーワード内の返答情報全体、または、返答情報全体に含まれる単語の組み合わせを解析してよい。例えば、車内ナビゲーションシナリオにおいて、基準長が２である場合は、「Ａ県Ｂ市Ｃ地区Ｄ通り１号」が、基準長より長い長さを有する返答情報である。ユーザは、「Ｂ市」および「Ｄ通り１号」などの語系列を選択して繰り返してよい。従って、ユーザにより繰り返される音声信号に含まれるキーワードは、バックオフアルゴリズムを使用する第１言語モデルを使用することにより解析されてよい。

第１言語モデル、第２言語モデル、および第３言語モデルが取得された後、図７に示すように、第１言語モデルと、第２言語モデルと、第３言語モデルとを組み合わせて総合言語モデルを取得し、総合言語モデルは、動的目標言語モデルのコア部分である。総合言語モデルおよび前端部分（または総合言語モデル、前端部分、および後端部分）は、動的目標言語モデルを形成する。

第３取得方式：参照形式の返答情報に基づき単語コンフュージョンネットワークを取得することであって、返答情報の長さは基準長以上であり、単語コンフュージョンネットワーク内の各語彙は遷移確率を有する、取得することと、各語彙のペナルティ重みを算出し、各語彙のペナルティ重みに基づき単語コンフュージョンネットワークを重み付き有限状態トランスデューサに変換し、かつ、重み付き有限状態トランスデューサを第１言語モデルとして使用することと、参照形式の返答情報に基づき第２言語モデルを取得することであって、返答情報の長さは基準長より短い、取得することと、参照語彙に基づき第３言語モデルを取得することとを行うことと、第１言語モデルと、第２言語モデルと、第３言語モデルとを組み合わせて総合言語モデルを取得し、かつ、総合言語モデルを動的目標言語モデルとして使用することとを行う。

参照語彙の説明については、第１取得方式を参照されたい。長さが基準長より短い返答情報に基づき第２言語モデルを取得すること、および、参照語彙に基づき第３言語モデルを取得することの説明については、第２取得方式を参照されたい。ここでは詳細について改めて説明しない。以下では、第１言語モデルを取得するプロセスについて説明する。

単語コンフュージョンネットワーク（ｃｏｎｆｕｓｉｏｎｎｅｔｗｏｒｋ）を取得する方法は、長さが基準長以上の全ての返答情報における同じカテゴリの語彙に対して単語整列（ａｌｉｇｎｍｅｎｔ）を行い、かつ、カテゴリの数に１を追加して単語コンフュージョンネットワーク内の状態の数を取得する段階を含む。次に、これらの状態は、アークを使用することにより接続され、各アークは、ある語彙とその語彙に対応する遷移確率とを有する。遷移確率は、語彙が位置するカテゴリにおける語彙の出現頻度を示すために使用される。更に、２つの隣接する状態間の全てのアークに関する遷移確率の合計は１である。

更に、長さが比較的長い返答情報を繰り返す場合は、ユーザは、返答情報全体に含まれる全ての語彙から飛び飛びに語彙を選択して繰り返すことが多い。従って、単語コンフュージョンネットワーク内の状態２つごとの間にスキップエッジを追加して、ユーザにより語彙が飛び飛びに選択される音声信号に含まれるキーワードを解析し易くする必要がある。例えば、図８に示す単語コンフュージョンネットワークでは、ｅｐｓがスキップエッジを表し、Ｆ_ｉが異なるカテゴリを区別するために使用される。

次に、各語彙のペナルティ重みを算出し、ペナルティ重みに基づき単語コンフュージョンネットワークをＷＦＳＴに変換して第１言語モデルを取得する。なお、第１言語モデルを使用してキーワードを解析する場合は、第１言語モデルは、音声信号の音素列に対応し得る複数の語系列のペナルティ重みを算出する。語系列のペナルティ重みは、語系列に含まれる語彙のペナルティ重みの積に等しく、ペナルティ重み値が最も小さい語系列が出力される。オプションで、各語彙のペナルティ重みを算出する方式は、限定されるわけではないが、以下の３つの方式を含む。

第１算出方式：任意の語彙について、語彙の遷移確率の負対数値をペナルティ重みとして使用する。

上述の説明からは、語彙の遷移確率が、語彙が位置するカテゴリにおける語彙の出現頻度を示すために使用され、語彙が位置するカテゴリにおける語彙の出現頻度が高いほど遷移確率が高く、遷移確率の負対数値が小さいことを示し、すなわち、ペナルティ重みが出現頻度に反比例することが分かる。このようにして、目標言語モデルは、語彙が位置するカテゴリにおける出現頻度が高い語彙をより適切に解析することができる。

第２算出方式：任意の語彙について、語彙を含む参照形式の返答情報の数の対数値をペナルティ重みとして使用する。

長さが比較的長い複数の返答情報から選択予定の返答情報を繰り返す場合は、ユーザは、別の返答情報内の語彙とは大幅に異なる選択予定の返答情報内の語彙、すなわち、独自性の強い語彙を選択して繰り返す傾向がより強い。例えば、ユーザが「Ａ県Ｂ市Ｃ地区Ｄ通り１号」および「Ａ県Ｂ市Ｅ地区Ｆ道路２号」のうち前者を繰り返す場合は、２つの情報の両方に出現する語彙は「Ａ県」も「Ｂ市」も通常選択されない。代わりに、前の情報にのみ出現する語彙「Ｃ地区」または「Ｄ通り１号」を選択して繰り返す。

本実施形態では、以下の式に従って語彙の独自性の強さが定義される。

逆存在頻度（ｉｎｖｅｒｓｅｐｒｅｓｅｎｃｅｆｒｅｑｕｅｎｃｙ、ＩＰＦ）は、語彙の独自性の強さを示すために使用され、ＩＰＦの値が大きいほど、語彙の独自性が強いことを示す。Ｔ_Ｆｉは、カテゴリＦ_ｉにおける語彙を表すために使用され、Ｎは、参照形式の返答情報の総数であり、ｎは、語彙Ｔ_Ｆｉを含む参照形式の返答情報の数である。語彙を含む参照形式の返答情報の数が多いほど、ＩＰＦ値が小さく、語彙の独自性が弱いことを示すことが分かる。

スキップエッジを考慮すると、参照形式の返答情報の総数がＮから（Ｎ＋１）に変化し、ＩＰＦ（Ｔ_Ｆｉ）が更新され、以下の式に従って表現される。

更に、スキップエッジを区別できない、すなわち、スキップエッジが参照形式の各返答情報に出現すると仮定すると、スキップエッジのＩＰＦ（ｓｋｉｐ）は、以下のように表されてよい。

本実施形態では、上述のＩＰＦ（ｓｋｉｐ）を書き換えて、スキップエッジのＩＰＦ値が常に０に等しくなるのを回避してもよい。書き換えられたＩＰＦ（ｓｋｉｐ）は以下の式に従って表される。

更には、以下の式に従ってＩＰＦ（Ｔ_Ｆｉ）に基づき語彙のペナルティ重みが定義されてよく、取得された語彙のペナルティ重みは、語彙を含む参照形式の返答情報の数の対数値である。

それに応じて、スキップエッジのペナルティ重みＰｅｎａｌｔｙ（ｓｋｉｐ）が以下のように定義されてよい。

この算出方式では、独自性の強い語彙、すなわち、数が比較的少ない参照形式の返答情報に含まれる語彙に対してより小さなペナルティ重みが与えられ、その結果、目標言語モデルがこれらの独自性の強い語彙をより適切に解析できることが分かる。

第３算出方式：任意の語彙について、参照形式の各返答情報における語彙の出現回数の対数値をペナルティ重みとして使用する。

第３算出方式では、以下の式に従って語彙の独自性の強さが引き続き定義されてよい。

しかしながら、第２算出方式とは異なり、Ｎは、参照形式の各返答情報に含まれる語彙の総数を表し、ｎは、参照形式の各返答情報における語彙Ｔ_Ｆｉの出現回数を表す。次に、第２算出方式の式に基づき、語彙Ｔ_Ｆｉのペナルティ重みＰｅｎａｌｔｙ（Ｔ_Ｆｉ）が以下のように定義されてよく、その結果、語彙のペナルティ重みは、参照形式の各返答情報における語彙の出現回数の対数値として取得される。

独自性の強い語彙、すなわち、出現回数が少ない語彙はペナルティ確率が低くなり、その結果、動的目標言語モデルは、独自性の強い語彙をより適切に解析できることが分かる。

第１言語モデルを取得する算出方式に関わらず、第１言語モデルが取得された後、第１言語モデルと、第２言語モデルと、第３言語モデルとを組み合わせて総合言語モデルを取得することができ、総合言語モデルは、動的目標言語モデルのコア部分である。次に、総合言語モデルおよび前端部分（または総合言語モデル、前端部分、および後端部分）は、動的目標言語モデルを形成することができる。

結論として、本願の本実施形態では、第１意図の返答情報に基づき前端部分とコア部分とを含む動的目標言語モデルを取得または生成し、音声信号を解析してキーワードを取得し、次に、動的目標言語モデルを呼び出してキーワードを解析することで第２意図およびサービス内容を取得する。動的目標言語モデルは第１意図の返答情報に基づき取得されるので、動的目標言語モデルを使用して解析することにより取得される第２意図およびサービス内容はどちらも第１意図に関連している。従って、本願の本実施形態では、第１意図と無関係な音声が無視され、その結果、提供されるサービスの内容がユーザ要求から逸脱せず、認識効果が良好であり、ユーザエクスペリエンスが向上する。

更に、本願の本実施形態では、動的目標言語モデル内の後端部分は、音声信号が複数の意図を有するかどうかを判断して、ユーザの各意図で示されるサービスを提供するように構成される。従って、ユーザエクスペリエンスが更に向上する。

図９に示すように、本願のある実施形態は更に音声認識装置を提供する。
この装置は、第１意図の返答情報に基づき動的目標言語モデルを取得または生成するように構成される第１取得モジュール９０１であって、動的目標言語モデルは前端部分およびコア部分を含み、コア部分は、返答情報に関連する想定可能な説明を決定するように構成され、前端部分は、返答情報の確証的情報の説明を決定するように構成される、第１取得モジュール９０１と、音声信号を取得し、かつ、音声信号を解析してキーワードを生成するように構成される第２取得モジュール９０２と、動的目標言語モデルを呼び出して第２意図およびサービス内容を決定するように構成される第１決定モジュール９０３であって、動的目標言語モデルの前端部分は、キーワードに基づき第２意図を解析し、動的目標言語モデルのコア部分は、キーワードに基づきサービス内容を解析する、第１決定モジュール９０３とを含む。

オプションで、動的目標言語モデルは更に後端部分を含み、後端部分は、更なる意図が存在するかどうかを判断するように構成される。装置は更に、動的目標言語モデルを呼び出して更なる意図を決定するように構成される第２決定モジュールを含み、動的目標言語モデルの後端部分は、キーワードに基づき更なる意図を解析する。

オプションで、後端部分は後端指示語を含む。

第２決定モジュールは、後端部分を使用することによりキーワードに基づき、参照後端指示語と参照後端指示語が位置する時点とを解析することと、第１意図および第２意図を参照して参照後端指示語に基づき動的目標言語モデルを更新して、更新された目標言語モデルを取得することと、更新された目標言語モデルを呼び出して、キーワードと参照後端指示語が位置する時点とに基づき更なる意図を解析することとを行うように構成される。

オプションで、装置は更に、過去の音声信号をバッファリングするように構成されるバッファモジュールを含む。

第２取得モジュール９０２は、音声信号を解析し、かつ、過去の音声信号を使用することによりコンテキスト検出を行ってキーワードを生成するように構成される。

オプションで、第１取得モジュール９０１は、第１意図の返答情報を参照形式に変換して参照形式の返答情報を取得し、かつ、参照形式の返答情報に基づき動的目標言語モデルを取得または生成するように構成される。

オプションで、第１取得モジュール９０１は、訓練された言語モデルを重み付き有限状態トランスデューサに変換し、かつ、重み付き有限状態トランスデューサを第１言語モデルとして使用することであって、訓練された言語モデルは、参照形式の返答情報を訓練することにより取得され、返答情報の長さは基準長以上である、使用することと、参照形式の返答情報に基づき第２言語モデルを取得することであって、返答情報の長さは基準長より短い、取得することと、参照語彙に基づき第３言語モデルを取得することとを行うことと、第１言語モデルと、第２言語モデルと、第３言語モデルとを組み合わせて総合言語モデルを取得し、かつ、総合言語モデルを動的目標言語モデルとして使用することとを行うように構成される。

オプションで、第１取得モジュール９０１は、参照形式の返答情報に基づき単語コンフュージョンネットワークを取得するように構成される第１取得ユニットであって、返答情報の長さは基準長以上であり、単語コンフュージョンネットワーク内の各語彙は遷移確率を有する、第１取得ユニットと、各語彙のペナルティ重みを算出し、各語彙のペナルティ重みに基づき単語コンフュージョンネットワークを重み付き有限状態トランスデューサに変換し、かつ、重み付き有限状態トランスデューサを第１言語モデルとして使用するように構成される算出ユニットと、参照形式の返答情報に基づき第２言語モデルを取得することであって、返答情報の長さは基準長より短い、取得することと、参照語彙に基づき第３言語モデルを取得することとを行うように構成される第２取得ユニットと、第１言語モデルと、第２言語モデルと、第３言語モデルとを組み合わせて総合言語モデルを取得し、かつ、総合言語モデルを動的目標言語モデルとして使用するように構成される組み合わせユニットとを含む。

図９で提供する装置が装置の機能を実装する場合は、上述の機能モジュールへの分割を説明のための例として使用しているに過ぎないことを理解されたい。実際の適用では、要件に基づき、上述の機能を複数の異なる機能モジュールに割り当てて実装してよい。すなわち、内部構造の観点からデバイスを複数の異なる機能モジュールに分割して、上述の機能の全てまたは幾つかを実装する。更に、上述の実施形態および方法の実施形態で提供する装置は、同じ概念に関連している。装置の特定の実装プロセスについては、方法の実施形態を参照されたい。ここでは詳細について改めて説明しない。

本願のある実施形態は更に音声認識デバイスを提供する。このデバイスはメモリおよびプロセッサを含む。メモリは少なくとも１つの命令を記憶する。プロセッサで少なくとも１つの命令をロードおよび実行して、本願の本実施形態で提供する音声認識方法を実装する。方法は、第１意図の返答情報に基づき動的目標言語モデルを取得または生成する段階であって、動的目標言語モデルは前端部分およびコア部分を含み、コア部分は、返答情報に関連する想定可能な説明を決定するように構成され、前端部分は、返答情報の確証的情報の説明を決定するように構成される、段階と、音声信号を取得し、かつ、音声信号を解析してキーワードを生成する段階と、動的目標言語モデルを呼び出して第２意図およびサービス内容を決定する段階であって、動的目標言語モデルの前端部分は、キーワードに基づき第２意図を解析し、動的目標言語モデルのコア部分は、キーワードに基づきサービス内容を解析する、段階とを含む。

オプションで、後端部分は後端指示語を含む。動的目標言語モデルを呼び出して更なる意図を決定し、かつ、動的目標言語モデルの後端部分を使用することによりキーワードに基づき更なる意図を解析する段階は、後端部分を使用することによりキーワードに基づき、参照後端指示語と参照後端指示語が位置する時点とを解析する段階と、第１意図および第２意図を参照して参照後端指示語に基づき動的目標言語モデルを更新して、更新された目標言語モデルを取得する段階と、更新された目標言語モデルを呼び出して、キーワードと参照後端指示語が位置する時点とに基づき更なる意図を解析する段階とを含む。

オプションで、音声信号を取得する段階の前に、方法は更に、過去の音声信号をバッファリングする段階を含み、音声信号を解析してキーワードを生成する段階は、音声信号を解析し、かつ、過去の音声信号を使用することによりコンテキスト検出を行ってキーワードを生成する段階を含む。

オプションで、第２意図を確認して、確認された第２意図を取得する段階は、ユーザに第２意図の確認情報を送信し、ユーザによりフィードバックされる第２意図を取得し、かつ、ユーザによりフィードバックされる第２意図を、確認された第２意図として使用する段階を含む。

オプションで、第１意図の返答情報に基づき動的目標言語モデルを取得または生成する段階は、第１意図の返答情報を参照形式に変換して参照形式の返答情報を取得し、かつ、参照形式の返答情報に基づき動的目標言語モデルを取得または生成する段階を含む。

オプションで、参照形式の返答情報に基づき動的目標言語モデルを取得または生成する段階は、訓練された言語モデルを重み付き有限状態トランスデューサに変換し、かつ、重み付き有限状態トランスデューサを動的目標言語モデルとして使用する段階であって、訓練された言語モデルは、参照形式の返答情報と参照語彙とを訓練することにより取得される、段階を含む。

オプションで、各語彙のペナルティ重みを算出する段階は、任意の語彙について、語彙の遷移確率の負対数値をペナルティ重みとして使用する段階を含む。

オプションで、各語彙のペナルティ重みを算出する段階は、任意の語彙について、語彙を含む参照形式の返答情報の数の対数値をペナルティ重みとして使用する段階を含む。

オプションで、各語彙のペナルティ重みを算出する段階は、任意の語彙について、参照形式の返答情報における語彙の出現回数の対数値をペナルティ重みとして使用する段階を含む。

本願のある実施形態は更にコンピュータ可読記憶媒体を提供する。この記憶媒体は少なくとも１つの命令を記憶する。プロセッサで命令をロードおよび実行して、本願の本実施形態で提供する音声認識方法を実装する。方法は、第１意図の返答情報に基づき動的目標言語モデルを取得または生成する段階であって、動的目標言語モデルは前端部分およびコア部分を含み、コア部分は、返答情報に関連する想定可能な説明を決定するように構成され、前端部分は、返答情報の確証的情報の説明を決定するように構成される、段階と、音声信号を取得し、かつ、音声信号を解析してキーワードを生成する段階と、動的目標言語モデルを呼び出して第２意図およびサービス内容を決定する段階であって、動的目標言語モデルの前端部分は、キーワードに基づき第２意図を解析し、動的目標言語モデルのコア部分は、キーワードに基づきサービス内容を解析する、段階とを含む。

オプションで、第１意図の返答情報に基づき動的目標言語モデルを取得または生成する段階は、第１意図の返答情報を参照形式に変換して参照形式の返答情報を取得し、かつ、参照形式の返答情報に基づき目標言語モデルを取得または生成する段階を含む。

本願のある実施形態は更にチップを提供する。このチップはプロセッサを含む。プロセッサは、メモリに記憶されている命令を呼び出し実行して、チップがインストールされている通信デバイスに、上述の音声認識方法のいずれか１つを行わせるように構成される。

本願のある実施形態は更に別のチップを提供する。このチップは、入力インタフェース、出力インタフェース、プロセッサ、およびメモリを含む。入力インタフェース、出力インタフェース、プロセッサ、およびメモリは、内部接続パスを介して互いに接続される。プロセッサは、メモリ内のコードを実行するように構成される。コードが実行されると、プロセッサは、上述の音声認識方法のいずれか１つを行うように構成される。

オプションで、メモリがプロセッサと統合されてもよいし、メモリおよびプロセッサが別個に配置されてもよい。

特定の実装プロセスでは、メモリおよびプロセッサが１つのチップに統合されてもよいし、異なるチップに配置されてもよい。本願の本実施形態では、メモリの種類とメモリおよびプロセッサの配置方式とについて限定しない。

プロセッサは、中央処理装置（ｃｅｎｔｒａｌｐｒｏｃｅｓｓｉｎｇｕｎｉｔ、ＣＰＵ）であってもよいし、別の汎用プロセッサ、デジタル信号プロセッサ（ｄｉｇｉｔａｌｓｉｇｎａｌｐｒｏｃｅｓｓｉｎｇ、ＤＳＰ）、特定用途向け集積回路（ａｐｐｌｉｃａｔｉｏｎ－ｓｐｅｃｉｆｉｃｉｎｔｅｇｒａｔｅｄｃｉｒｃｕｉｔ、ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（ｆｉｅｌｄｐｒｏｇｒａｍｍａｂｌｅｇａｔｅａｒｒａｙ、ＦＰＧＡ）もしくは別のプログラマブルロジックデバイス、ディスクリートゲートデバイスもしくはトランジスタロジックデバイス、またはディスクリートハードウェアコンポーネントなどであってもよいことを理解されたい。汎用プロセッサは、マイクロプロセッサまたは任意の従来のプロセッサなどであってよい。なお、プロセッサは、高度縮小命令セットコンピューティングマシン（ａｄｖａｎｃｅｄＲＩＳＣｍａｃｈｉｎｅｓ、ＡＲＭ）アーキテクチャをサポートするプロセッサであってよい。

更に、オプションの実施形態では、上述のメモリは、リードオンリメモリおよびランダムアクセスメモリを含み、プロセッサに対して命令およびデータを提供してよい。メモリは更に不揮発性ランダムアクセスメモリを含んでよい。例えば、メモリは更にデバイスタイプの情報を記憶してよい。

メモリは揮発性メモリまたは不揮発性メモリであってもよいし、揮発性メモリおよび不揮発性メモリを含んでもよい。不揮発性メモリは、リードオンリメモリ（ｒｅａｄ－ｏｎｌｙｍｅｍｏｒｙ、ＲＯＭ）、プログラマブルリードオンリメモリ（ｐｒｏｇｒａｍｍａｂｌｅＲＯＭ、ＰＲＯＭ）、消去可能プログラマブルリードオンリメモリ（ｅｒａｓａｂｌｅＰＲＯＭ、ＥＰＲＯＭ）、電気的消去可能プログラマブルリードオンリメモリ（ｅｌｅｃｔｒｉｃａｌｌｙＥＰＲＯＭ、ＥＥＰＲＯＭ）、またはフラッシュメモリであってよい。揮発性メモリは、外部キャッシュとして使用されるランダムアクセスメモリ（ｒａｎｄｏｍａｃｃｅｓｓｍｅｍｏｒｙ、ＲＡＭ）であってよい。例えば、以下に限定されるわけではないが、多くの形態のＲＡＭを利用できる。例えば、スタティックランダムアクセスメモリ（ｓｔａｔｉｃＲＡＭ、ＳＲＡＭ）、ダイナミックランダムアクセスメモリ（ｄｙｎａｍｉｃｒａｎｄｏｍａｃｃｅｓｓｍｅｍｏｒｙ、ＤＲＡＭ）、シンクロナスダイナミックランダムアクセスメモリ（ｓｙｎｃｈｒｏｎｏｕｓＤＲＡＭ、ＳＤＲＡＭ）、ダブルデータレートシンクロナスダイナミックランダムアクセスメモリ（ｄｏｕｂｌｅｄａｔａｒａｔｅＳＤＲＡＭ、ＤＤＲＳＤＲＡＭ）、高速シンクロナスダイナミックランダムアクセスメモリ（ｅｎｈａｎｃｅｄＳＤＲＡＭ、ＥＳＤＲＡＭ）、シンクリンクダイナミックランダムアクセスメモリ（ｓｙｎｃｈｌｉｎｋＤＲＡＭ、ＳＬＤＲＡＭ）、およびダイレクトラムバスランダムアクセスメモリ（ｄｉｒｅｃｔｒａｍｂｕｓＲＡＭ、ＤＲＲＡＭ）である。

本願のある実施形態はコンピュータプログラムを提供する。コンピュータによりコンピュータプログラムが実行されると、上述の方法の実施形態における対応する段階および／または手順をプロセッサまたはコンピュータに行わせることができる場合がある。

ソフトウェア、ハードウェア、ファームウェア、またはそれらの任意の組み合わせを使用することにより、上述の実施形態の全てまたは幾つかが実装されてよい。これらの実施形態を実装するためにソフトウェアが使用される場合は、当該実施形態は、コンピュータプログラム製品の形態で完全にまたは部分的に実装されてよい。コンピュータプログラム製品は、１つまたは複数のコンピュータ命令を含む。コンピュータ上でコンピュータプログラム命令がロードおよび実行されると、本願に係る手順または機能が全てまたは部分的に生成される。コンピュータは、汎用コンピュータ、専用コンピュータ、コンピュータネットワーク、または他のプログラマブル装置であってよい。コンピュータ命令はコンピュータ可読記憶媒体に記憶されてもよいし、あるコンピュータ可読記憶媒体から別のコンピュータ可読記憶媒体に伝送されてもよい。例えば、コンピュータ命令は、あるウェブサイト、コンピュータ、サーバ、またはデータセンタから別のウェブサイト、コンピュータ、サーバ、またはデータセンタへ有線（例えば、同軸ケーブル、光ファイバ、またはデジタル加入者回線）または無線（例えば、赤外線、電波、またはマイクロ波）の方式で伝送されてよい。コンピュータ可読記憶媒体は、コンピュータがアクセスできる任意の使用可能な媒体、または、１つまたは複数の使用可能な媒体を統合した、サーバまたはデータセンタなどのデータ記憶デバイスであってよい。使用可能な媒体は、磁気媒体（例えば、フロッピディスク、ハードディスク、または磁気テープ）、光媒体（例えば、ＤＶＤ）、または半導体媒質（例えば、ソリッドステートディスク（ｓｏｌｉｄｓｔａｔｅｄｉｓｋ））などであってよい。

上述の説明は本願の実施形態に過ぎないが、本願を限定することを意図するものではない。本願の趣旨および原理から逸脱することなく行われる修正、同等の置換、または改良はいずれも、本願の保護範囲に含まれるべきである。
［他の考えられる項目］
（項目１）
音声認識方法であって、
第１意図の返答情報に基づき動的目標言語モデルを取得または生成する段階であって、上記動的目標言語モデルは前端部分およびコア部分を含み、上記コア部分は、上記返答情報に関連する想定可能な説明を決定するように構成され、上記前端部分は、上記返答情報の確証的情報の説明を決定するように構成される、段階と、
音声信号を取得し、かつ、上記音声信号を解析してキーワードを生成する段階と、
上記動的目標言語モデルを呼び出して第２意図およびサービス内容を決定する段階であって、上記動的目標言語モデルの上記前端部分は、上記キーワードに基づき上記第２意図を解析し、上記動的目標言語モデルの上記コア部分は、上記キーワードに基づき上記サービス内容を解析する、段階と
を備える方法。
（項目２）
上記動的目標言語モデルは更に、後端部分を含み、上記後端部分は、更なる意図が存在するかどうかを判断するように構成され、上記方法は更に、
上記動的目標言語モデルを呼び出して更なる意図を決定し、かつ、上記動的目標言語モデルの上記後端部分を使用することにより上記キーワードに基づき上記更なる意図を解析する段階
を備える、項目１に記載の方法。
（項目３）
上記後端部分は後端指示語を含み、
上記動的目標言語モデルを呼び出して更なる意図を決定し、かつ、上記動的目標言語モデルの上記後端部分を使用することにより上記キーワードに基づき上記更なる意図を解析する上記段階は、
上記後端部分を使用することにより上記キーワードに基づき、参照後端指示語と上記参照後端指示語が位置する時点とを解析する段階と、
上記第１意図および上記第２意図を参照して上記参照後端指示語に基づき上記動的目標言語モデルを更新して、更新された目標言語モデルを取得する段階と、
上記更新された目標言語モデルを呼び出して、上記キーワードと上記参照後端指示語が位置する上記時点とに基づき上記更なる意図を解析する段階と
を有する、
項目２に記載の方法。
（項目４）
音声信号を取得する上記段階の前に、上記方法は更に、
過去の音声信号をバッファリングする段階
を備え、
上記音声信号を解析してキーワードを生成する上記段階は、
上記音声信号を解析し、かつ、上記過去の音声信号を使用することによりコンテキスト検出を行って上記キーワードを生成する段階
を有する、
項目１から３のいずれか一項に記載の方法。
（項目５）
第１意図の返答情報に基づき動的目標言語モデルを取得または生成する上記段階は、
上記第１意図の上記返答情報を参照形式に変換して上記参照形式の返答情報を取得し、かつ、上記参照形式の上記返答情報に基づき上記動的目標言語モデルを取得または生成する段階
を有する、項目１から４のいずれか一項に記載の方法。
（項目６）
上記参照形式の上記返答情報に基づき上記動的目標言語モデルを取得または生成する上記段階は、
訓練された言語モデルを重み付き有限状態トランスデューサに変換し、かつ、上記重み付き有限状態トランスデューサを上記動的目標言語モデルとして使用する段階であって、上記訓練された言語モデルは、上記参照形式の上記返答情報と参照語彙とを訓練することにより取得される、段階
を含む、項目５に記載の方法。
（項目７）
上記参照形式の上記返答情報に基づき上記動的目標言語モデルを取得または生成する上記段階は、
訓練された言語モデルを重み付き有限状態トランスデューサに変換し、かつ、上記重み付き有限状態トランスデューサを第１言語モデルとして使用する段階であって、上記訓練された言語モデルは、上記参照形式の返答情報を訓練することにより取得され、上記返答情報の上記長さは基準長以上である、段階と、
上記参照形式の返答情報に基づき第２言語モデルを取得することであって、上記返答情報の上記長さは上記基準長より短い、取得することと、参照語彙に基づき第３言語モデルを取得することとを行う段階と、
上記第１言語モデルと、上記第２言語モデルと、上記第３言語モデルとを組み合わせて総合言語モデルを取得し、かつ、上記総合言語モデルを上記動的目標言語モデルとして使用する段階と
を含む、項目５に記載の方法。
（項目８）
上記参照形式の上記返答情報に基づき上記動的目標言語モデルを取得または生成する上記段階は、
上記参照形式の返答情報に基づき単語コンフュージョンネットワークを取得する段階であって、上記返答情報の上記長さは基準長以上であり、上記単語コンフュージョンネットワーク内の各語彙は遷移確率を有する、段階と、
各語彙のペナルティ重みを算出し、各語彙の上記ペナルティ重みに基づき上記単語コンフュージョンネットワークを重み付き有限状態トランスデューサに変換し、かつ、上記重み付き有限状態トランスデューサを第１言語モデルとして使用する段階と、
上記参照形式の返答情報に基づき第２言語モデルを取得することであって、上記返答情報の上記長さは上記基準長より短い、取得することと、参照語彙に基づき第３言語モデルを取得することとを行う段階と、
上記第１言語モデルと、上記第２言語モデルと、上記第３言語モデルとを組み合わせて総合言語モデルを取得し、かつ、上記総合言語モデルを上記動的目標言語モデルとして使用する段階と
を含む、項目５に記載の方法。
（項目９）
各語彙のペナルティ重みを算出する上記段階は、
任意の語彙について、上記語彙の遷移確率の負対数値を上記ペナルティ重みとして使用する段階
を含む、項目８に記載の方法。
（項目１０）
各語彙のペナルティ重みを算出する上記段階は、
任意の語彙について、上記語彙を含む上記参照形式の返答情報の数の対数値を上記ペナルティ重みとして使用する段階
を含む、項目８に記載の方法。
（項目１１）
各語彙のペナルティ重みを算出する上記段階は、
任意の語彙について、上記参照形式の上記返答情報における上記語彙の出現回数の対数値を上記ペナルティ重みとして使用する段階
を含む、項目８に記載の方法。
（項目１２）
音声認識装置であって、
第１意図の返答情報に基づき動的目標言語モデルを取得または生成するように構成される第１取得モジュールであって、上記動的目標言語モデルは前端部分およびコア部分を含み、上記コア部分は、上記返答情報に関連する想定可能な説明を決定するように構成され、上記前端部分は、上記返答情報の確証的情報の説明を決定するように構成される、第１取得モジュールと、
音声信号を取得し、かつ、上記音声信号を解析してキーワードを生成するように構成される第２取得モジュールと、
上記動的目標言語モデルを呼び出して第２意図およびサービス内容を決定するように構成される第１決定モジュールであって、上記動的目標言語モデルの上記前端部分は、上記キーワードに基づき上記第２意図を解析し、上記動的目標言語モデルの上記コア部分は、上記キーワードに基づき上記サービス内容を解析する、第１決定モジュールと
を備える装置。
（項目１３）
上記動的目標言語モデルは更に、後端部分を含み、上記後端部分は、更なる意図が存在するかどうかを判断するように構成され、上記装置は更に、
上記動的目標言語モデルを呼び出して更なる意図を決定するように構成される第２決定モジュールであって、上記動的目標言語モデルの上記後端部分は、上記キーワードに基づき上記更なる意図を解析する、第２決定モジュール
を備える、項目１２に記載の装置。
（項目１４）
上記後端部分は後端指示語を含み、
上記第２決定モジュールは、上記後端部分を使用することにより上記キーワードに基づき、参照後端指示語と上記参照後端指示語が位置する時点とを解析することと、上記第１意図および上記第２意図を参照して上記参照後端指示語に基づき上記動的目標言語モデルを更新して、更新された目標言語モデルを取得することと、上記更新された目標言語モデルを呼び出して、上記キーワードと上記参照後端指示語が位置する上記時点とに基づき上記更なる意図を解析することとを行うように構成される、
項目１３に記載の装置。
（項目１５）
上記装置は更に、
過去の音声信号をバッファリングするように構成されるバッファモジュール
を備え、
上記第２取得モジュールは、上記音声信号を解析し、かつ、上記過去の音声信号を使用することによりコンテキスト検出を行って上記キーワードを生成するように構成される、
項目１２から１４のいずれか一項に記載の装置。
（項目１６）
上記第１取得モジュールは、上記第１意図の上記返答情報を参照形式に変換して上記参照形式の返答情報を取得し、かつ、上記参照形式の上記返答情報に基づき上記動的目標言語モデルを取得または生成するように構成される、項目１２から１５のいずれか一項に記載の装置。
（項目１７）
上記第１取得モジュールは、訓練された言語モデルを重み付き有限状態トランスデューサに変換し、かつ、上記重み付き有限状態トランスデューサを上記動的目標言語モデルとして使用することであって、上記訓練された言語モデルは、上記参照形式の上記返答情報と参照語彙とを訓練することにより取得される、使用することを行うように構成される、項目１６に記載の装置。
（項目１８）
上記第１取得モジュールは、
訓練された言語モデルを重み付き有限状態トランスデューサに変換し、かつ、上記重み付き有限状態トランスデューサを第１言語モデルとして使用することであって、上記訓練された言語モデルは、上記参照形式の返答情報を訓練することにより取得され、上記返答情報の上記長さは基準長以上である、使用することと、
上記参照形式の返答情報に基づき第２言語モデルを取得することであって、上記返答情報の上記長さは上記基準長より短い、取得することと、参照語彙に基づき第３言語モデルを取得することとを行うことと、
上記第１言語モデルと、上記第２言語モデルと、上記第３言語モデルとを組み合わせて総合言語モデルを取得し、かつ、上記総合言語モデルを上記動的目標言語モデルとして使用することと
を行うように構成される、項目１６に記載の装置。
（項目１９）
上記第１取得モジュールは、
上記参照形式の返答情報に基づき単語コンフュージョンネットワークを取得するように構成される第１取得ユニットであって、上記返答情報の上記長さは基準長以上であり、上記単語コンフュージョンネットワーク内の各語彙は遷移確率を有する、第１取得ユニットと、
各語彙のペナルティ重みを算出し、各語彙の上記ペナルティ重みに基づき上記単語コンフュージョンネットワークを重み付き有限状態トランスデューサに変換し、かつ、上記重み付き有限状態トランスデューサを第１言語モデルとして使用するように構成される算出ユニットと、
上記参照形式の返答情報に基づき第２言語モデルを取得することであって、上記返答情報の上記長さは上記基準長より短い、取得することと、参照語彙に基づき第３言語モデルを取得することとを行うように構成される第２取得ユニットと、
上記第１言語モデルと、上記第２言語モデルと、上記第３言語モデルとを組み合わせて総合言語モデルを取得し、かつ、上記総合言語モデルを上記動的目標言語モデルとして使用するように構成される組み合わせユニットと
を有する、項目１６に記載の装置。
（項目２０）
上記算出ユニットは、任意の語彙について、上記語彙の遷移確率の負対数値を上記ペナルティ重みとして使用するように構成される、項目１９に記載の装置。
（項目２１）
上記算出ユニットは、任意の語彙について、上記語彙を含む上記参照形式の返答情報の数の対数値を上記ペナルティ重みとして使用するように構成される、項目１９に記載の装置。
（項目２２）
上記算出ユニットは、任意の語彙について、上記参照形式の上記返答情報における上記語彙の出現回数の対数値を上記ペナルティ重みとして使用するように構成される、項目１９に記載の装置。
（項目２３）
メモリとプロセッサとを備える音声認識デバイスであって、上記メモリは少なくとも１つの命令を記憶し、上記少なくとも１つの命令は、音声認識方法を実装するために上記プロセッサによりロードおよび実行され、上記方法は、
第１意図の返答情報に基づき動的目標言語モデルを取得または生成する段階であって、上記動的目標言語モデルは前端部分およびコア部分を含み、上記コア部分は、上記返答情報に関連する想定可能な説明を決定するように構成され、上記前端部分は、上記返答情報の確証的情報の説明を決定するように構成される、段階と、
音声信号を取得し、かつ、上記音声信号を解析してキーワードを生成する段階と、
上記動的目標言語モデルを呼び出して第２意図およびサービス内容を決定する段階であって、上記動的目標言語モデルの上記前端部分は、上記キーワードに基づき上記第２意図を解析し、上記動的目標言語モデルの上記コア部分は、上記キーワードに基づき上記サービス内容を解析する、段階と
を含む、デバイス。
（項目２４）
上記動的目標言語モデルは更に、後端部分を含み、上記後端部分は、更なる意図が存在するかどうかを判断するように構成され、上記方法は更に、
上記動的目標言語モデルを呼び出して更なる意図を決定し、かつ、上記動的目標言語モデルの上記後端部分を使用することにより上記キーワードに基づき上記更なる意図を解析する段階
を含む、項目２３に記載の音声認識デバイス。
（項目２５）
上記後端部分は後端指示語を含み、
上記動的目標言語モデルを呼び出して更なる意図を決定し、かつ、上記動的目標言語モデルの上記後端部分を使用することにより上記キーワードに基づき上記更なる意図を解析する上記段階は、
上記後端部分を使用することにより上記キーワードに基づき、参照後端指示語と上記参照後端指示語が位置する時点とを解析する段階と、
上記第１意図および上記第２意図を参照して上記参照後端指示語に基づき上記動的目標言語モデルを更新して、更新された目標言語モデルを取得する段階と、
上記更新された目標言語モデルを呼び出して、上記キーワードと上記参照後端指示語が位置する上記時点とに基づき上記更なる意図を解析する段階と
を含む、
項目２４に記載の音声認識デバイス。
（項目２６）
音声信号を取得する上記段階の前に、上記方法は更に、
過去の音声信号をバッファリングする段階
を含み、
上記音声信号を解析してキーワードを生成する上記段階は、
上記音声信号を解析し、かつ、上記過去の音声信号を使用することによりコンテキスト検出を行って上記キーワードを生成する段階
を含む、
項目２３から２５のいずれか一項に記載の音声認識デバイス。
（項目２７）
第１意図の返答情報に基づき動的目標言語モデルを取得または生成する上記段階は、
上記第１意図の上記返答情報を参照形式に変換して上記参照形式の返答情報を取得し、かつ、上記参照形式の上記返答情報に基づき上記動的目標言語モデルを取得または生成する段階
を含む、項目２３から２６のいずれか一項に記載の音声認識デバイス。
（項目２８）
上記参照形式の上記返答情報に基づき上記動的目標言語モデルを取得または生成する上記段階は、
訓練された言語モデルを重み付き有限状態トランスデューサに変換し、かつ、上記重み付き有限状態トランスデューサを上記動的目標言語モデルとして使用する段階であって、上記訓練された言語モデルは、上記参照形式の上記返答情報と参照語彙とを訓練することにより取得される、段階
を含む、項目２７に記載の音声認識デバイス。
（項目２９）
上記参照形式の上記返答情報に基づき上記動的目標言語モデルを取得または生成する上記段階は、
訓練された言語モデルを重み付き有限状態トランスデューサに変換し、かつ、上記重み付き有限状態トランスデューサを第１言語モデルとして使用する段階であって、上記訓練された言語モデルは、上記参照形式の返答情報を訓練することにより取得され、上記返答情報の上記長さは基準長以上である、段階と、
上記参照形式の返答情報に基づき第２言語モデルを取得することであって、上記返答情報の上記長さは上記基準長より短い、取得することと、参照語彙に基づき第３言語モデルを取得することとを行う段階と、
上記第１言語モデルと、上記第２言語モデルと、上記第３言語モデルとを組み合わせて総合言語モデルを取得し、かつ、上記総合言語モデルを上記動的目標言語モデルとして使用する段階と
を含む、項目２７に記載の音声認識デバイス。
（項目３０）
上記参照形式の上記返答情報に基づき上記動的目標言語モデルを取得または生成する上記段階は、
上記参照形式の返答情報に基づき単語コンフュージョンネットワークを取得する段階であって、上記返答情報の上記長さは基準長以上であり、上記単語コンフュージョンネットワーク内の各語彙は遷移確率を有する、段階と、
各語彙のペナルティ重みを算出し、各語彙の上記ペナルティ重みに基づき上記単語コンフュージョンネットワークを重み付き有限状態トランスデューサに変換し、かつ、上記重み付き有限状態トランスデューサを第１言語モデルとして使用する段階と、
上記参照形式の返答情報に基づき第２言語モデルを取得することであって、上記返答情報の上記長さは上記基準長より短い、取得することと、参照語彙に基づき第３言語モデルを取得することとを行う段階と、
上記第１言語モデルと、上記第２言語モデルと、上記第３言語モデルとを組み合わせて総合言語モデルを取得し、かつ、上記総合言語モデルを上記動的目標言語モデルとして使用する段階と
を含む、項目２７に記載の音声認識デバイス。
（項目３１）
各語彙のペナルティ重みを算出する上記段階は、
任意の語彙について、上記語彙の遷移確率の負対数値を上記ペナルティ重みとして使用する段階
を含む、項目３０に記載の音声認識デバイス。
（項目３２）
各語彙のペナルティ重みを算出する上記段階は、
任意の語彙について、上記語彙を含む上記参照形式の返答情報の数の対数値を上記ペナルティ重みとして使用する段階
を含む、項目３０に記載の音声認識デバイス。
（項目３３）
各語彙のペナルティ重みを算出する上記段階は、
任意の語彙について、上記参照形式の上記返答情報における上記語彙の出現回数の対数値を上記ペナルティ重みとして使用する段階
を含む、項目３０に記載の音声認識デバイス。
（項目３４）
コンピュータ可読記憶媒体であって、上記コンピュータ可読記憶媒体は少なくとも１つの命令を記憶し、上記命令は、音声認識方法を実装するためにプロセッサによりロードおよび実行され、上記方法は、
第１意図の返答情報に基づき動的目標言語モデルを取得または生成する段階であって、上記動的目標言語モデルは前端部分およびコア部分を含み、上記コア部分は、上記返答情報に関連する想定可能な説明を決定するように構成され、上記前端部分は、上記返答情報の確証的情報の説明を決定するように構成される、段階と、
音声信号を取得し、かつ、上記音声信号を解析してキーワードを生成する段階と、
上記動的目標言語モデルを呼び出して第２意図およびサービス内容を決定する段階であって、上記動的目標言語モデルの上記前端部分は、上記キーワードに基づき上記第２意図を解析し、上記動的目標言語モデルの上記コア部分は、上記キーワードに基づき上記サービス内容を解析する、段階と
を含む、コンピュータ可読記憶媒体。
（項目３５）
上記動的目標言語モデルは更に、後端部分を含み、上記後端部分は、更なる意図が存在するかどうかを判断するように構成され、上記方法は更に、
上記動的目標言語モデルを呼び出して更なる意図を決定し、かつ、上記動的目標言語モデルの上記後端部分を使用することにより上記キーワードに基づき上記更なる意図を解析する段階
を含む、項目３４に記載のコンピュータ可読記憶媒体。
（項目３６）
上記後端部分は後端指示語を含み、
上記動的目標言語モデルを呼び出して更なる意図を決定し、かつ、上記動的目標言語モデルの上記後端部分を使用することにより上記キーワードに基づき上記更なる意図を解析する上記段階は、
上記後端部分を使用することにより上記キーワードに基づき、参照後端指示語と上記参照後端指示語が位置する時点とを解析する段階と、
上記第１意図および上記第２意図を参照して上記参照後端指示語に基づき上記動的目標言語モデルを更新して、更新された目標言語モデルを取得する段階と、
上記更新された目標言語モデルを呼び出して、上記キーワードと上記参照後端指示語が位置する上記時点とに基づき上記更なる意図を解析する段階と
を含む、
項目３５に記載のコンピュータ可読記憶媒体。
（項目３７）
音声信号を取得する上記段階の前に、上記方法は更に、
過去の音声信号をバッファリングする段階
を含み、
上記音声信号を解析してキーワードを生成する上記段階は、
上記音声信号を解析し、かつ、上記過去の音声信号を使用することによりコンテキスト検出を行って上記キーワードを生成する段階
を含む、
項目３４から３６のいずれか一項に記載のコンピュータ可読記憶媒体。
（項目３８）
第１意図の返答情報に基づき動的目標言語モデルを取得または生成する上記段階は、
上記第１意図の上記返答情報を参照形式に変換して上記参照形式の返答情報を取得し、かつ、上記参照形式の上記返答情報に基づき上記動的目標言語モデルを取得または生成する段階
を含む、項目３４から３７のいずれか一項に記載のコンピュータ可読記憶媒体。
（項目３９）
上記参照形式の上記返答情報に基づき上記動的目標言語モデルを取得または生成する上記段階は、
訓練された言語モデルを重み付き有限状態トランスデューサに変換し、かつ、上記重み付き有限状態トランスデューサを上記動的目標言語モデルとして使用する段階であって、上記訓練された言語モデルは、上記参照形式の上記返答情報と参照語彙とを訓練することにより取得される、段階
を含む、項目３８に記載のコンピュータ可読記憶媒体。
（項目４０）
上記参照形式の上記返答情報に基づき上記動的目標言語モデルを取得または生成する上記段階は、
訓練された言語モデルを重み付き有限状態トランスデューサに変換し、かつ、上記重み付き有限状態トランスデューサを第１言語モデルとして使用する段階であって、上記訓練された言語モデルは、上記参照形式の返答情報を訓練することにより取得され、上記返答情報の上記長さは基準長以上である、段階と、
上記参照形式の返答情報に基づき第２言語モデルを取得することであって、上記返答情報の上記長さは上記基準長より短い、取得することと、参照語彙に基づき第３言語モデルを取得することとを行う段階と、
上記第１言語モデルと、上記第２言語モデルと、上記第３言語モデルとを組み合わせて総合言語モデルを取得し、かつ、上記総合言語モデルを上記動的目標言語モデルとして使用する段階と
を含む、項目３８に記載のコンピュータ可読記憶媒体。
（項目４１）
上記参照形式の上記返答情報に基づき上記動的目標言語モデルを取得または生成する上記段階は、
上記参照形式の返答情報に基づき単語コンフュージョンネットワークを取得する段階であって、上記返答情報の上記長さは基準長以上であり、上記単語コンフュージョンネットワーク内の各語彙は遷移確率を有する、段階と、
各語彙のペナルティ重みを算出し、各語彙の上記ペナルティ重みに基づき上記単語コンフュージョンネットワークを重み付き有限状態トランスデューサに変換し、かつ、上記重み付き有限状態トランスデューサを第１言語モデルとして使用する段階と、
上記参照形式の返答情報に基づき第２言語モデルを取得することであって、上記返答情報の上記長さは上記基準長より短い、取得することと、参照語彙に基づき第３言語モデルを取得することとを行う段階と、
上記第１言語モデルと、上記第２言語モデルと、上記第３言語モデルとを組み合わせて総合言語モデルを取得し、かつ、上記総合言語モデルを上記動的目標言語モデルとして使用する段階と
を含む、項目３８に記載のコンピュータ可読記憶媒体。
（項目４２）
各語彙のペナルティ重みを算出する上記段階は、
任意の語彙について、上記語彙の遷移確率の負対数値を上記ペナルティ重みとして使用する段階
を含む、項目４１に記載のコンピュータ可読記憶媒体。
（項目４３）
各語彙のペナルティ重みを算出する上記段階は、
任意の語彙について、上記語彙を含む上記参照形式の返答情報の数の対数値を上記ペナルティ重みとして使用する段階
を含む、項目４１に記載のコンピュータ可読記憶媒体。
（項目４４）
各語彙のペナルティ重みを算出する上記段階は、
任意の語彙について、上記参照形式の上記返答情報における上記語彙の出現回数の対数値を上記ペナルティ重みとして使用する段階
を含む、項目４１に記載のコンピュータ可読記憶媒体。

Claims

音声認識方法であって、
第１意図に対する返答情報に基づき動的目標言語モデルを取得または生成する段階であって、前記動的目標言語モデルは前端部分およびコア部分を含み、前記コア部分は、前記返答情報に関連する想定可能な表現を決定するように構成され、前記前端部分は、前記返答情報に対する確証的情報の表現を決定するように構成される、段階と、
音声信号を取得し、かつ、前記音声信号を前記音声信号より前の過去の音声信号に基づき解析して前記第１意図に関連するキーワードを生成する段階と、
前記動的目標言語モデルを呼び出して第２意図およびサービス内容を決定する段階であって、前記動的目標言語モデルの前記前端部分は、前記キーワードのうち第１キーワードに基づき前記第２意図を解析し、前記動的目標言語モデルの前記コア部分は、前記キーワードのうち第２キーワードに基づき前記サービス内容を解析する、段階と
を備える方法。
前記動的目標言語モデルは更に、後端部分を含み、前記後端部分は、更なる意図が存在するかどうかを判断するように構成され、前記方法は更に、
前記動的目標言語モデルを呼び出して更なる意図を決定し、かつ、前記動的目標言語モデルの前記後端部分を使用することにより第３キーワードに基づき前記更なる意図を解析する段階
を備える、請求項１に記載の方法。
音声認識方法であって、
第１意図に対する返答情報に基づき動的目標言語モデルを取得または生成する段階であって、前記動的目標言語モデルは前端部分およびコア部分を含み、前記コア部分は、前記返答情報に関連する想定可能な表現を決定するように構成され、前記前端部分は、前記返答情報に対する確証的情報の表現を決定するように構成される、段階と、
音声信号を取得し、かつ、前記音声信号を解析してキーワードを生成する段階と、
前記動的目標言語モデルを呼び出して第２意図およびサービス内容を決定する段階であって、前記動的目標言語モデルの前記前端部分は、前記キーワードのうち第１キーワードに基づき前記第２意図を解析し、前記動的目標言語モデルの前記コア部分は、前記キーワードのうち第２キーワードに基づき前記サービス内容を解析する、段階と
を備え、
前記動的目標言語モデルは更に、後端部分を含み、前記後端部分は、更なる意図が存在するかどうかを判断するように構成され、前記方法は更に、
前記動的目標言語モデルを呼び出して更なる意図を決定し、かつ、前記動的目標言語モデルの前記後端部分を使用することにより第３キーワードに基づき前記更なる意図を解析する段階
を備える方法。
前記後端部分は後端指示語を含み、
前記動的目標言語モデルを呼び出して更なる意図を決定し、かつ、前記動的目標言語モデルの前記後端部分を使用することにより第３キーワードに基づき前記更なる意図を解析する前記段階は、
前記後端部分を使用することにより前記第３キーワードに基づき、参照後端指示語と前記参照後端指示語が位置する時点とを解析する段階と、
前記第１意図および前記第２意図を参照して前記参照後端指示語に基づき前記動的目標言語モデルを更新して、更新された目標言語モデルを取得する段階と、
前記更新された目標言語モデルを呼び出して、前記第３キーワードと前記参照後端指示語が位置する前記時点とに基づき前記更なる意図を解析する段階と
を有する、
請求項２または３に記載の方法。
音声信号を取得する前記段階の前に、前記方法は更に、
過去の音声信号をバッファリングする段階
を備え、
前記音声信号を前記音声信号より前の過去の音声信号に基づき解析して前記第１意図に関連するキーワードを生成する前記段階は、
前記音声信号を解析し、かつ、前記過去の音声信号を使用することによりコンテキスト検出を行って前記第１意図に関連する前記キーワードを生成する段階
を有する、
請求項１から４のいずれか一項に記載の方法。
第１意図に対する返答情報に基づき動的目標言語モデルを取得または生成する前記段階は、
前記第１意図に対する前記返答情報を参照形式の前記返答情報に変換し、かつ、前記参照形式の前記返答情報に基づき前記動的目標言語モデルを取得または生成する段階
を有する、請求項１から５のいずれか一項に記載の方法。
前記参照形式の前記返答情報に基づき前記動的目標言語モデルを取得または生成する前記段階は、
訓練された言語モデルを重み付き有限状態トランスデューサに変換し、かつ、前記重み付き有限状態トランスデューサを前記動的目標言語モデルとして使用する段階であって、前記訓練された言語モデルは、前記参照形式の前記返答情報と参照語彙とを訓練することにより取得される、段階
を含む、請求項６に記載の方法。
前記参照形式の前記返答情報に基づき前記動的目標言語モデルを取得または生成する前記段階は、
訓練された言語モデルを重み付き有限状態トランスデューサに変換し、かつ、前記重み付き有限状態トランスデューサを第１言語モデルとして使用する段階であって、前記訓練された言語モデルは、前記参照形式の返答情報を訓練することにより取得され、前記返答情報の長さは基準長以上である、段階と、
前記参照形式の返答情報に基づき第２言語モデルを取得することであって、前記返答情報の前記長さは前記基準長より短い、取得することと、参照語彙に基づき第３言語モデルを取得することとを行う段階と、
前記第１言語モデルと、前記第２言語モデルと、前記第３言語モデルとを組み合わせて総合言語モデルを取得し、かつ、前記総合言語モデルを前記動的目標言語モデルとして使用する段階と
を含む、請求項６に記載の方法。
音声認識方法であって、
第１意図に対する返答情報に基づき動的目標言語モデルを取得または生成する段階であって、前記動的目標言語モデルは前端部分およびコア部分を含み、前記コア部分は、前記返答情報に関連する想定可能な表現を決定するように構成され、前記前端部分は、前記返答情報に対する確証的情報の表現を決定するように構成される、段階と、
音声信号を取得し、かつ、前記音声信号を解析してキーワードを生成する段階と、
前記動的目標言語モデルを呼び出して第２意図およびサービス内容を決定する段階であって、前記動的目標言語モデルの前記前端部分は、前記キーワードのうち第１キーワードに基づき前記第２意図を解析し、前記動的目標言語モデルの前記コア部分は、前記キーワードのうち第２キーワードに基づき前記サービス内容を解析する、段階と
を備え、
第１意図に対する返答情報に基づき動的目標言語モデルを取得または生成する前記段階は、
前記第１意図に対する前記返答情報を参照形式の前記返答情報に変換し、かつ、前記参照形式の前記返答情報に基づき前記動的目標言語モデルを取得または生成する段階
を有し、
前記参照形式の前記返答情報に基づき前記動的目標言語モデルを取得または生成する前記段階は、
訓練された言語モデルを重み付き有限状態トランスデューサに変換し、かつ、前記重み付き有限状態トランスデューサを第１言語モデルとして使用する段階であって、前記訓練された言語モデルは、前記参照形式の返答情報を訓練することにより取得され、前記返答情報の長さは基準長以上である、段階と、
前記参照形式の返答情報に基づき第２言語モデルを取得することであって、前記返答情報の前記長さは前記基準長より短い、取得することと、参照語彙に基づき第３言語モデルを取得することとを行う段階と、
前記第１言語モデルと、前記第２言語モデルと、前記第３言語モデルとを組み合わせて総合言語モデルを取得し、かつ、前記総合言語モデルを前記動的目標言語モデルとして使用する段階と
を含む、方法。
前記参照形式の前記返答情報に基づき前記動的目標言語モデルを取得または生成する前記段階は、
前記参照形式の返答情報に基づき単語コンフュージョンネットワークを取得する段階であって、前記返答情報の長さは基準長以上であり、前記単語コンフュージョンネットワーク内の各語彙は遷移確率を有する、段階と、
各語彙のペナルティ重みを算出し、各語彙の前記ペナルティ重みに基づき前記単語コンフュージョンネットワークを重み付き有限状態トランスデューサに変換し、かつ、前記重み付き有限状態トランスデューサを第１言語モデルとして使用する段階と、
前記参照形式の返答情報に基づき第２言語モデルを取得することであって、前記返答情報の前記長さは前記基準長より短い、取得することと、参照語彙に基づき第３言語モデルを取得することとを行う段階と、
前記第１言語モデルと、前記第２言語モデルと、前記第３言語モデルとを組み合わせて総合言語モデルを取得し、かつ、前記総合言語モデルを前記動的目標言語モデルとして使用する段階と
を含む、請求項６に記載の方法。
音声認識方法であって、
第１意図に対する返答情報に基づき動的目標言語モデルを取得または生成する段階であって、前記動的目標言語モデルは前端部分およびコア部分を含み、前記コア部分は、前記返答情報に関連する想定可能な表現を決定するように構成され、前記前端部分は、前記返答情報に対する確証的情報の表現を決定するように構成される、段階と、
音声信号を取得し、かつ、前記音声信号を解析してキーワードを生成する段階と、
前記動的目標言語モデルを呼び出して第２意図およびサービス内容を決定する段階であって、前記動的目標言語モデルの前記前端部分は、前記キーワードのうち第１キーワードに基づき前記第２意図を解析し、前記動的目標言語モデルの前記コア部分は、前記キーワードのうち第２キーワードに基づき前記サービス内容を解析する、段階と
を備え、
第１意図に対する返答情報に基づき動的目標言語モデルを取得または生成する前記段階は、
前記第１意図に対する前記返答情報を参照形式の前記返答情報に変換し、かつ、前記参照形式の前記返答情報に基づき前記動的目標言語モデルを取得または生成する段階
を有し、
前記参照形式の前記返答情報に基づき前記動的目標言語モデルを取得または生成する前記段階は、
前記参照形式の返答情報に基づき単語コンフュージョンネットワークを取得する段階であって、前記返答情報の長さは基準長以上であり、前記単語コンフュージョンネットワーク内の各語彙は遷移確率を有する、段階と、
各語彙のペナルティ重みを算出し、各語彙の前記ペナルティ重みに基づき前記単語コンフュージョンネットワークを重み付き有限状態トランスデューサに変換し、かつ、前記重み付き有限状態トランスデューサを第１言語モデルとして使用する段階と、
前記参照形式の返答情報に基づき第２言語モデルを取得することであって、前記返答情報の前記長さは前記基準長より短い、取得することと、参照語彙に基づき第３言語モデルを取得することとを行う段階と、
前記第１言語モデルと、前記第２言語モデルと、前記第３言語モデルとを組み合わせて総合言語モデルを取得し、かつ、前記総合言語モデルを前記動的目標言語モデルとして使用する段階と
を含む、方法。
各語彙のペナルティ重みを算出する前記段階は、
任意の語彙について、前記語彙の遷移確率の負対数値を前記ペナルティ重みとして使用する段階
を含む、請求項１０または１１に記載の方法。
各語彙のペナルティ重みを算出する前記段階は、
任意の語彙について、前記語彙を含む前記参照形式の返答情報の数の対数値を前記ペナルティ重みとして使用する段階
を含む、請求項１０または１１に記載の方法。
各語彙のペナルティ重みを算出する前記段階は、
任意の語彙について、前記参照形式の前記返答情報における前記語彙の出現回数の対数値を前記ペナルティ重みとして使用する段階
を含む、請求項１０または１１に記載の方法。
音声認識装置であって、
第１意図に対する返答情報に基づき動的目標言語モデルを取得または生成するように構成される第１取得モジュールであって、前記動的目標言語モデルは前端部分およびコア部分を含み、前記コア部分は、前記返答情報に関連する想定可能な表現を決定するように構成され、前記前端部分は、前記返答情報に対する確証的情報の表現を決定するように構成される、第１取得モジュールと、
音声信号を取得し、かつ、前記音声信号を前記音声信号より前の過去の音声信号に基づき解析して前記第１意図に関連するキーワードを生成するように構成される第２取得モジュールと、
前記動的目標言語モデルを呼び出して第２意図およびサービス内容を決定するように構成される第１決定モジュールであって、前記動的目標言語モデルの前記前端部分は、前記キーワードのうち第１キーワードに基づき前記第２意図を解析し、前記動的目標言語モデルの前記コア部分は、前記キーワードのうち第２キーワードに基づき前記サービス内容を解析する、第１決定モジュールと
を備える装置。
前記動的目標言語モデルは更に、後端部分を含み、前記後端部分は、更なる意図が存在するかどうかを判断するように構成され、前記装置は更に、
前記動的目標言語モデルを呼び出して更なる意図を決定するように構成される第２決定モジュールであって、前記動的目標言語モデルの前記後端部分は、第３キーワードに基づき前記更なる意図を解析する、第２決定モジュール
を備える、請求項１５に記載の装置。
音声認識装置であって、
第１意図に対する返答情報に基づき動的目標言語モデルを取得または生成するように構成される第１取得モジュールであって、前記動的目標言語モデルは前端部分およびコア部分を含み、前記コア部分は、前記返答情報に関連する想定可能な表現を決定するように構成され、前記前端部分は、前記返答情報に対する確証的情報の表現を決定するように構成される、第１取得モジュールと、
音声信号を取得し、かつ、前記音声信号を解析してキーワードを生成するように構成される第２取得モジュールと、
前記動的目標言語モデルを呼び出して第２意図およびサービス内容を決定するように構成される第１決定モジュールであって、前記動的目標言語モデルの前記前端部分は、前記キーワードのうち第１キーワードに基づき前記第２意図を解析し、前記動的目標言語モデルの前記コア部分は、前記キーワードのうち第２キーワードに基づき前記サービス内容を解析する、第１決定モジュールと
を備え、
前記動的目標言語モデルは更に、後端部分を含み、前記後端部分は、更なる意図が存在するかどうかを判断するように構成され、前記装置は更に、
前記動的目標言語モデルを呼び出して更なる意図を決定するように構成される第２決定モジュールであって、前記動的目標言語モデルの前記後端部分は、第３キーワードに基づき前記更なる意図を解析する、第２決定モジュール
を備える、装置。
前記後端部分は後端指示語を含み、
前記第２決定モジュールは、前記後端部分を使用することにより前記第３キーワードに基づき、参照後端指示語と前記参照後端指示語が位置する時点とを解析することと、前記第１意図および前記第２意図を参照して前記参照後端指示語に基づき前記動的目標言語モデルを更新して、更新された目標言語モデルを取得することと、前記更新された目標言語モデルを呼び出して、前記第３キーワードと前記参照後端指示語が位置する前記時点とに基づき前記更なる意図を解析することとを行うように構成される、
請求項１６または１７に記載の装置。
前記装置は更に、
過去の音声信号をバッファリングするように構成されるバッファモジュール
を備え、
前記第２取得モジュールは、前記音声信号を解析し、かつ、前記過去の音声信号を使用することによりコンテキスト検出を行って前記第１意図に関連する前記キーワードを生成するように構成される、
請求項１５から１８のいずれか一項に記載の装置。
前記第１取得モジュールは、前記第１意図に対する前記返答情報を参照形式の前記返答情報に変換し、かつ、前記参照形式の前記返答情報に基づき前記動的目標言語モデルを取得または生成するように構成される、請求項１５から１９のいずれか一項に記載の装置。
前記第１取得モジュールは、訓練された言語モデルを重み付き有限状態トランスデューサに変換し、かつ、前記重み付き有限状態トランスデューサを前記動的目標言語モデルとして使用することであって、前記訓練された言語モデルは、前記参照形式の前記返答情報と参照語彙とを訓練することにより取得される、使用することを行うように構成される、請求項２０に記載の装置。
前記第１取得モジュールは、
訓練された言語モデルを重み付き有限状態トランスデューサに変換し、かつ、前記重み付き有限状態トランスデューサを第１言語モデルとして使用することであって、前記訓練された言語モデルは、前記参照形式の返答情報を訓練することにより取得され、前記返答情報の長さは基準長以上である、使用することと、
前記参照形式の返答情報に基づき第２言語モデルを取得することであって、前記返答情報の前記長さは前記基準長より短い、取得することと、参照語彙に基づき第３言語モデルを取得することとを行うことと、
前記第１言語モデルと、前記第２言語モデルと、前記第３言語モデルとを組み合わせて総合言語モデルを取得し、かつ、前記総合言語モデルを前記動的目標言語モデルとして使用することと
を行うように構成される、請求項２０に記載の装置。
音声認識装置であって、
第１意図に対する返答情報に基づき動的目標言語モデルを取得または生成するように構成される第１取得モジュールであって、前記動的目標言語モデルは前端部分およびコア部分を含み、前記コア部分は、前記返答情報に関連する想定可能な表現を決定するように構成され、前記前端部分は、前記返答情報に対する確証的情報の表現を決定するように構成される、第１取得モジュールと、
音声信号を取得し、かつ、前記音声信号を解析してキーワードを生成するように構成される第２取得モジュールと、
前記動的目標言語モデルを呼び出して第２意図およびサービス内容を決定するように構成される第１決定モジュールであって、前記動的目標言語モデルの前記前端部分は、前記キーワードのうち第１キーワードに基づき前記第２意図を解析し、前記動的目標言語モデルの前記コア部分は、前記キーワードのうち第２キーワードに基づき前記サービス内容を解析する、第１決定モジュールと
を備え、
前記第１取得モジュールは、前記第１意図に対する前記返答情報を参照形式の前記返答情報に変換し、かつ、前記参照形式の前記返答情報に基づき前記動的目標言語モデルを取得または生成するように構成され、
前記第１取得モジュールは、
訓練された言語モデルを重み付き有限状態トランスデューサに変換し、かつ、前記重み付き有限状態トランスデューサを第１言語モデルとして使用することであって、前記訓練された言語モデルは、前記参照形式の返答情報を訓練することにより取得され、前記返答情報の長さは基準長以上である、使用することと、
前記参照形式の返答情報に基づき第２言語モデルを取得することであって、前記返答情報の前記長さは前記基準長より短い、取得することと、参照語彙に基づき第３言語モデルを取得することとを行うことと、
前記第１言語モデルと、前記第２言語モデルと、前記第３言語モデルとを組み合わせて総合言語モデルを取得し、かつ、前記総合言語モデルを前記動的目標言語モデルとして使用することと
を行うように構成される、装置。
前記第１取得モジュールは、
前記参照形式の返答情報に基づき単語コンフュージョンネットワークを取得するように構成される第１取得ユニットであって、前記返答情報の長さは基準長以上であり、前記単語コンフュージョンネットワーク内の各語彙は遷移確率を有する、第１取得ユニットと、
各語彙のペナルティ重みを算出し、各語彙の前記ペナルティ重みに基づき前記単語コンフュージョンネットワークを重み付き有限状態トランスデューサに変換し、かつ、前記重み付き有限状態トランスデューサを第１言語モデルとして使用するように構成される算出ユニットと、
前記参照形式の返答情報に基づき第２言語モデルを取得することであって、前記返答情報の前記長さは前記基準長より短い、取得することと、参照語彙に基づき第３言語モデルを取得することとを行うように構成される第２取得ユニットと、
前記第１言語モデルと、前記第２言語モデルと、前記第３言語モデルとを組み合わせて総合言語モデルを取得し、かつ、前記総合言語モデルを前記動的目標言語モデルとして使用するように構成される組み合わせユニットと
を有する、請求項２０に記載の装置。
音声認識装置であって、
第１意図に対する返答情報に基づき動的目標言語モデルを取得または生成するように構成される第１取得モジュールであって、前記動的目標言語モデルは前端部分およびコア部分を含み、前記コア部分は、前記返答情報に関連する想定可能な表現を決定するように構成され、前記前端部分は、前記返答情報に対する確証的情報の表現を決定するように構成される、第１取得モジュールと、
音声信号を取得し、かつ、前記音声信号を解析してキーワードを生成するように構成される第２取得モジュールと、
前記動的目標言語モデルを呼び出して第２意図およびサービス内容を決定するように構成される第１決定モジュールであって、前記動的目標言語モデルの前記前端部分は、前記キーワードのうち第１キーワードに基づき前記第２意図を解析し、前記動的目標言語モデルの前記コア部分は、前記キーワードのうち第２キーワードに基づき前記サービス内容を解析する、第１決定モジュールと
を備え、
前記第１取得モジュールは、前記第１意図に対する前記返答情報を参照形式の前記返答情報に変換し、かつ、前記参照形式の前記返答情報に基づき前記動的目標言語モデルを取得または生成するように構成され、
前記第１取得モジュールは、
前記参照形式の返答情報に基づき単語コンフュージョンネットワークを取得するように構成される第１取得ユニットであって、前記返答情報の長さは基準長以上であり、前記単語コンフュージョンネットワーク内の各語彙は遷移確率を有する、第１取得ユニットと、
各語彙のペナルティ重みを算出し、各語彙の前記ペナルティ重みに基づき前記単語コンフュージョンネットワークを重み付き有限状態トランスデューサに変換し、かつ、前記重み付き有限状態トランスデューサを第１言語モデルとして使用するように構成される算出ユニットと、
前記参照形式の返答情報に基づき第２言語モデルを取得することであって、前記返答情報の前記長さは前記基準長より短い、取得することと、参照語彙に基づき第３言語モデルを取得することとを行うように構成される第２取得ユニットと、
前記第１言語モデルと、前記第２言語モデルと、前記第３言語モデルとを組み合わせて総合言語モデルを取得し、かつ、前記総合言語モデルを前記動的目標言語モデルとして使用するように構成される組み合わせユニットと
を有する、装置。
前記算出ユニットは、任意の語彙について、前記語彙の遷移確率の負対数値を前記ペナルティ重みとして使用するように構成される、請求項２４または２５に記載の装置。
前記算出ユニットは、任意の語彙について、前記語彙を含む前記参照形式の返答情報の数の対数値を前記ペナルティ重みとして使用するように構成される、請求項２４または２５に記載の装置。
前記算出ユニットは、任意の語彙について、前記参照形式の前記返答情報における前記語彙の出現回数の対数値を前記ペナルティ重みとして使用するように構成される、請求項２４または２５に記載の装置。
メモリとプロセッサとを備える音声認識デバイスであって、前記メモリは少なくとも１つの命令を記憶し、前記少なくとも１つの命令は、請求項１から１４のいずれか一項に記載の方法を実装するために前記プロセッサによりロードおよび実行される、デバイス。
コンピュータ可読記憶媒体であって、前記コンピュータ可読記憶媒体は少なくとも１つの命令を記憶し、前記命令は、請求項１から１４のいずれか一項に記載の方法を実装するためにプロセッサによりロードおよび実行される、コンピュータ可読記憶媒体。
プロセッサにより実行されると、請求項１から１４のいずれか一項に記載の方法の段階を前記プロセッサに実施させるコンピュータプログラム。