JP7343087B2 - 音声認識の方法、装置、およびデバイス、並びにコンピュータ可読記憶媒体 - Google Patents

音声認識の方法、装置、およびデバイス、並びにコンピュータ可読記憶媒体 Download PDF

Info

Publication number
JP7343087B2
JP7343087B2 JP2021570241A JP2021570241A JP7343087B2 JP 7343087 B2 JP7343087 B2 JP 7343087B2 JP 2021570241 A JP2021570241 A JP 2021570241A JP 2021570241 A JP2021570241 A JP 2021570241A JP 7343087 B2 JP7343087 B2 JP 7343087B2
Authority
JP
Japan
Prior art keywords
language model
response information
dynamic target
target language
vocabulary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021570241A
Other languages
English (en)
Other versions
JP2022534242A (ja
Inventor
ニエ、ウェイラン
ウェン、フリアン
フアン、ヨウジア
ユ、ハイ
フ、シューマン
Original Assignee
ホアウェイ・テクノロジーズ・カンパニー・リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ホアウェイ・テクノロジーズ・カンパニー・リミテッド filed Critical ホアウェイ・テクノロジーズ・カンパニー・リミテッド
Publication of JP2022534242A publication Critical patent/JP2022534242A/ja
Application granted granted Critical
Publication of JP7343087B2 publication Critical patent/JP7343087B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/193Formal grammars, e.g. finite state automata, context free grammars or word networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)

Description

本願は、2019年5月31日に出願された「SPEECH RECOGNITION METHOD,APPARATUS,AND DEVICE,AND COMPUTER-READABLE STORAGE MEDIUM」と題する中国特許出願第201910470966.4号に基づく優先権を主張するものであり、この中国特許出願が参照によりそのまま本明細書に組み込まれる。
本願は、人工知能技術の分野、とりわけ、音声認識の方法、装置、およびデバイス、並びにコンピュータ可読記憶媒体に関する。
人工知能技術の開発に伴い、生活圏では人工知能システムが広く使用されている。音声認識システムは人工知能システムのうちの1つである。音声認識システムを使用している間、ユーザは音声認識システムに音声命令を送信し、音声認識システムは、その音声命令に対して音声認識を行い、ユーザ命令を理解し、そのユーザ命令に従ってユーザに質問をする必要がある。次に、音声認識システムは、その質問に応答してユーザにより送信された返答音声を認識し、ユーザ返答を理解し、そのユーザ返答で示されるサービスを提供して、ユーザ要求を満たす。従って、音声認識を行う方法がユーザ要求を満たすための鍵となる。
関連技術によって音声認識方法が提供される。この方法では、言語モデルを呼び出して音声命令の認識とユーザ命令の理解とを行った後、ユーザに質問が送信され、その質問に基づき言語モデルが更に調整され、例えば、その質問に関連する語彙集合が言語モデルに統合され、その結果、調整後に取得される言語モデルは、語彙集合内の語彙を認識することができる。ユーザが語彙集合内の語彙を使用することにより返答音声を送信すると、調整後に取得される言語モデルは、その返答音声を認識して、ユーザ要求を満たすことができる。
発明者は、関連技術に少なくとも以下の問題があることに気付いている。
ユーザは、サードパーティとの通信で、音声命令および返答音声に加えて無関係な音声を立てる場合がある。例えば、典型的な複数ユーザのシナリオまたは複数状況のシナリオでは、ユーザが自動車または電気車両の車内モジュールと音声対話を行うと、無関係な音声に、そのユーザと別のユーザとの間の対話、または、別のユーザにより差し挟まれる音声などが含まれる可能性が高い場合がある。車内モジュールの音声認識システムは、無関係な音声も音声命令または返答音声として認識および理解する。その結果、提供されるサービスがユーザ要求から逸脱し、ユーザエクスペリエンスが低下する。
本願の実施形態は、関連技術における認識効果の低下およびユーザエクスペリエンスの低下という問題を克服するための、音声認識の方法、装置、およびデバイス、並びにコンピュータ可読記憶媒体を提供する。
ある態様によれば、本願は音声認識方法を提供する。
ある態様によれば、音声認識方法が提供される。方法は、第1意図の返答情報に基づき動的目標言語モデルを取得または生成する段階を含み、動的目標言語モデルは前端部分およびコア部分を含み、コア部分は、返答情報に関連する想定可能な説明を決定するように構成され、前端部分は、返答情報の確証的情報の説明を決定するように構成され、音声信号を取得し、かつ、音声信号を解析してキーワードを生成した後、動的目標言語モデルを呼び出して第2意図およびサービス内容を決定してよく、動的目標言語モデルの前端部分は、キーワードに基づき第2意図を解析し、動的目標言語モデルのコア部分は、キーワードに基づきサービス内容を解析する。
例として、ユーザと車内モジュールとの間の対話が行われる音声認識のシナリオを使用する。第1意図は、ユーザと車内モジュールとの間の会話が開始した後にユーザの音声信号を解析することにより取得される意図を含む。第1意図の返答情報は、第1意図に基づき車内モジュールによりユーザへ返信される1つまたは複数の返答情報を含み、車内モジュールは、第1意図の返答情報に基づき、前端部分とコア部分とを含む動的目標言語モデルを取得する。車内モジュールがユーザに1つまたは複数の返答情報を返信した後、車内モジュールは音声信号を再取得する。なお、車内モジュールにより再取得された音声信号は、ユーザと車内モジュールとの間の対話の、音声信号、すなわち、返答情報に関連する音声信号と、そのユーザと別のユーザとの間の対話の無関係な音声信号とを含んでよい。
次に、車内モジュールは、取得された音声信号を解析してキーワードを生成し、動的目標言語モデルを呼び出し、生成されたキーワードから返答情報に関連する語彙を解析する。動的目標言語モデルは前端部分およびコア部分を含む。前端部分は、ユーザによる返答情報の確証的情報の説明を決定するように構成され、確証的情報は、確認情報、修正情報、および取り消し情報などを含んでよい。ユーザの第2意図は、前端部分を使用してキーワードを解析することにより取得されてよい。例えば、第1意図の返答情報が1つあり、かつ、キーワードを解析することにより前端部分によって取得される確証的情報が「はい、その通りです」という確認情報を含む場合は、ユーザの第2意図が第1意図の返答情報で示される意図であると判断してよい。
コア部分は、返答情報に関連する想定可能な説明を決定するように構成され、コア部分は、返答情報を説明するためにユーザにより使用される語彙をキーワードから解析して、その語彙に基づきサービス内容を取得し、次に、サービス内容で示されるサービスをユーザに提供してよい。本実施形態では、サードパーティのクラウドサービスが、サービス内容で示されるサービスを提供してもよいし、車内モジュールが、サービス内容で示されるサービスを提供してもよいし、車載端末が、サービス内容で示されるサービスを提供してもよいし、自動車企業が、サービス内容で示されるサービスを提供してもよい。車載端末は、車両上の車内モジュール以外の別の端末、例えば、車載ディスプレイ、車載空調装置、または車載スピーカであってよい。当然ながら、サードパーティのクラウドサービス、車内モジュール、車載端末、および自動車企業のうちの2つまたはそれより多くが、サービス内容で示されるサービスを共同で提供してよい。なお、動的目標言語モデルの前端部分およびコア部分はどちらも返答情報に基づき取得されるので、前端部分を使用することにより取得される第2意図と、コア部分を使用することにより取得されるサービス内容とはどちらも第1意図に関連しており、第1意図とは無関係な音声信号が無視される。従って、本願の本実施形態では、音声認識を行う効果が比較的良好であり、その結果、提供されるサービスが無関係な音声信号の干渉に起因してユーザ要求から逸脱するのが回避され、ユーザエクスペリエンスが向上する。
オプションで、動的目標言語モデルは更に後端部分を含み、後端部分は、更なる意図が存在するかどうかを判断するように構成される。方法は更に、動的目標言語モデルを呼び出して更なる意図を決定し、かつ、動的目標言語モデルの後端部分を使用することによりキーワードに基づき更なる意図を解析する段階を含む。
オプションで、後端部分は後端指示語を含む。動的目標言語モデルを呼び出して更なる意図を決定し、かつ、動的目標言語モデルの後端部分を使用することによりキーワードに基づき更なる意図を解析する段階は、後端部分を使用することによりキーワードに基づき、参照後端指示語と参照後端指示語が位置する時点とを解析する段階と、第1意図および第2意図を参照して参照後端指示語に基づき動的目標言語モデルを更新して、更新された目標言語モデルを取得する段階と、更新された目標言語モデルを呼び出して、キーワードと参照後端指示語が位置する時点とに基づき更なる意図を解析する段階とを含む。更なる意図を解析することにより、より正確なサービスが更に提供され得る。
オプションで、音声信号を取得する段階の前に、方法は更に、過去の音声信号をバッファリングする段階を含み、音声信号を解析してキーワードを生成する段階は、音声信号を解析し、かつ、過去の音声信号を使用することによりコンテキスト検出を行ってキーワードを生成する段階を含む。過去の音声信号を使用することによりコンテキスト検出が行われ、その結果、認識されるキーワードが現在のシナリオにより適しており、音声認識の精度が更に向上する。
オプションで、方法は更に、動的目標言語モデルを呼び出して第2意図およびサービス内容を決定する段階の後、第2意図を確認して、確認された第2意図を取得する段階を含む。
オプションで、第2意図を確認して、確認された第2意図を取得する段階は、ユーザに第2意図の確認情報を送信し、ユーザによりフィードバックされる第2意図を取得し、かつ、ユーザによりフィードバックされる第2意図を、確認された第2意図として使用する段階を含む。第2意図が確認され、その結果、第2意図がより正確になり、より正確なサービス内容が提供される。
オプションで、第1意図の返答情報に基づき動的目標言語モデルを取得する段階は、第1意図の返答情報を参照形式に変換して参照形式の返答情報を取得し、かつ、参照形式の返答情報に基づき動的目標言語モデルを取得または生成する段階を含む。異なる提供者によって異なる形式の返答情報が提供され得るので、返答情報を参照形式に変換して返答情報の形式を統一し、返答情報を受信し易くする。異なる適用分野における返答情報は異なる参照形式に変換され、その結果、同じ適用分野における返答情報は同じ形式になる。
オプションで、参照形式の返答情報に基づき動的目標言語モデルを取得または生成する段階は、訓練された言語モデルを重み付き有限状態トランスデューサに変換し、かつ、重み付き有限状態トランスデューサを動的目標言語モデルとして使用する段階であって、訓練された言語モデルは、参照形式の返答情報と参照語彙とを訓練することにより取得される、段階を含む。参照語彙は、以下に限定されるわけではないが、参照形式の返答情報内の語彙に対応する分類名と、代表表現語とを含む。
オプションで、参照形式の返答情報に基づき動的目標言語モデルを取得または生成する段階は、訓練された言語モデルを重み付き有限状態トランスデューサに変換し、かつ、重み付き有限状態トランスデューサを第1言語モデルとして使用する段階であって、訓練された言語モデルは、参照形式の返答情報を訓練することにより取得され、返答情報の長さは基準長以上である、段階と、参照形式の返答情報に基づき第2言語モデルを取得することであって、返答情報の長さは基準長より短い、取得することと、参照語彙に基づき第3言語モデルを取得することとを行う段階と、第1言語モデルと、第2言語モデルと、第3言語モデルとを組み合わせて総合言語モデルを取得し、かつ、総合言語モデルを動的目標言語モデルとして使用する段階とを含む。
オプションで、参照形式の返答情報に基づき動的目標言語モデルを取得または生成する段階は、参照形式の返答情報に基づき単語コンフュージョンネットワークを取得する段階であって、返答情報の長さは基準長以上であり、単語コンフュージョンネットワーク内の各語彙は遷移確率を有する、段階と、各語彙のペナルティ重みを算出し、各語彙のペナルティ重みに基づき単語コンフュージョンネットワークを重み付き有限状態トランスデューサに変換し、かつ、重み付き有限状態トランスデューサを第1言語モデルとして使用する段階と、参照形式の返答情報に基づき第2言語モデルを取得することであって、返答情報の長さは基準長より短い、取得することと、参照語彙に基づき第3言語モデルを取得することとを行う段階と、第1言語モデルと、第2言語モデルと、第3言語モデルとを組み合わせて総合言語モデルを取得し、かつ、総合言語モデルを動的目標言語モデルとして使用する段階とを含む。
オプションで、各語彙のペナルティ重みを算出する段階は、任意の語彙について、語彙の遷移確率の負対数値をペナルティ重みとして使用する段階を含む。語彙の遷移確率は、語彙が位置するカテゴリにおける語彙の出現頻度を示すために使用され、語彙が位置するカテゴリにおける語彙の出現頻度が高いほど遷移確率が高く、遷移確率の負対数値が小さいことを示し、すなわち、ペナルティ重みは出現頻度に反比例する。このようにして、目標言語モデルは、語彙が位置するカテゴリにおける出現頻度が高い語彙をより適切に解析することができる。
オプションで、各語彙のペナルティ重みを算出する段階は、任意の語彙について、語彙を含む参照形式の返答情報の数の対数値をペナルティ重みとして使用する段階を含む。独自性の強い語彙、すなわち、数が比較的少ない参照形式の返答情報に含まれる語彙に対してより小さなペナルティ重みが与えられ、その結果、目標言語モデルは、これらの独自性の強い語彙をより適切に解析することができる。
オプションで、各語彙のペナルティ重みを算出する段階は、任意の語彙について、参照形式の返答情報における語彙の出現回数の対数値をペナルティ重みとして使用する段階を含む。独自性の強い語彙、すなわち、出現回数が少ない語彙はペナルティ確率が低くなり、その結果、動的目標言語モデルは、独自性の強い語彙をより適切に解析することができる。
ある態様によれば、音声認識装置が提供される。
装置は、第1意図の返答情報に基づき動的目標言語モデルを取得または生成するように構成される第1取得モジュールであって、動的目標言語モデルは前端部分およびコア部分を含み、コア部分は、返答情報に関連する想定可能な説明を決定するように構成され、前端部分は、返答情報の確証的情報の説明を決定するように構成される、第1取得モジュールと、音声信号を取得し、かつ、音声信号を解析してキーワードを生成するように構成される第2取得モジュールと、動的目標言語モデルを呼び出して第2意図およびサービス内容を決定するように構成される第1決定モジュールであって、動的目標言語モデルの前端部分は、キーワードに基づき第2意図を解析し、動的目標言語モデルのコア部分は、キーワードに基づきサービス内容を解析する、第1決定モジュールとを含む。
オプションで、動的目標言語モデルは更に後端部分を含み、後端部分は、更なる意図が存在するかどうかを判断するように構成される。装置は更に、動的目標言語モデルを呼び出して更なる意図を決定し、かつ、動的目標言語モデルの後端部分を使用することによりキーワードに基づき更なる意図を解析するように構成される第2決定モジュールを含む。
オプションで、後端部分は後端指示語を含み、第2決定モジュールは、後端部分を使用することによりキーワードに基づき、参照後端指示語と参照後端指示語が位置する時点とを解析することと、第1意図および第2意図を参照して参照後端指示語に基づき動的目標言語モデルを更新して、更新された目標言語モデルを取得することと、更新された目標言語モデルを呼び出して、キーワードと参照後端指示語が位置する時点とに基づき更なる意図を解析することとを行うように構成される。
オプションで、装置は更に、過去の音声信号をバッファリングするように構成されるバッファモジュールを含み、第2取得モジュールは、音声信号を解析し、かつ、過去の音声信号を使用することによりコンテキスト検出を行ってキーワードを生成するように構成される。
オプションで、装置は更に、第2意図を確認して、確認された第2意図を取得するように構成される確認モジュールを含む。
オプションで、確認モジュールは、ユーザに第2意図の確認情報を送信し、ユーザによりフィードバックされる第2意図を取得し、かつ、ユーザによりフィードバックされる第2意図を、確認された第2意図として使用するように構成される。
オプションで、第1取得モジュールは、第1意図の返答情報を参照形式に変換して参照形式の返答情報を取得し、かつ、参照形式の返答情報に基づき動的目標言語モデルを取得または生成するように構成される。
オプションで、第1取得モジュールは、訓練された言語モデルを重み付き有限状態トランスデューサに変換し、かつ、重み付き有限状態トランスデューサを動的目標言語モデルとして使用することであって、訓練された言語モデルは、参照形式の返答情報と参照語彙とを訓練することにより取得される、使用することを行うように構成される。
オプションで、第1取得モジュールは、訓練された言語モデルを重み付き有限状態トランスデューサに変換し、かつ、重み付き有限状態トランスデューサを第1言語モデルとして使用することであって、訓練された言語モデルは、参照形式の返答情報を訓練することにより取得され、返答情報の長さは基準長以上である、使用することと、参照形式の返答情報に基づき第2言語モデルを取得することであって、返答情報の長さは基準長より短い、取得することと、参照語彙に基づき第3言語モデルを取得することとを行うことと、第1言語モデルと、第2言語モデルと、第3言語モデルとを組み合わせて総合言語モデルを取得し、かつ、総合言語モデルを動的目標言語モデルとして使用することとを行うように構成される。
オプションで、第1取得モジュールは、参照形式の返答情報に基づき単語コンフュージョンネットワークを取得するように構成される第1取得ユニットであって、返答情報の長さは基準長以上であり、単語コンフュージョンネットワーク内の各語彙は遷移確率を有する、第1取得ユニットと、各語彙のペナルティ重みを算出し、各語彙のペナルティ重みに基づき単語コンフュージョンネットワークを重み付き有限状態トランスデューサに変換し、かつ、重み付き有限状態トランスデューサを第1言語モデルとして使用するように構成される算出ユニットと、参照形式の返答情報に基づき第2言語モデルを取得することであって、返答情報の長さは基準長より短い、取得することと、参照語彙に基づき第3言語モデルを取得することとを行うように構成される第2取得ユニットと、第1言語モデルと、第2言語モデルと、第3言語モデルとを組み合わせて総合言語モデルを取得し、かつ、総合言語モデルを動的目標言語モデルとして使用するように構成される組み合わせユニットとを含む。
オプションで、算出ユニットは、任意の語彙について、語彙の遷移確率の負対数値をペナルティ重みとして使用するように構成される。
オプションで、算出ユニットは、任意の語彙について、語彙を含む参照形式の返答情報の数の対数値をペナルティ重みとして使用するように構成される。
オプションで、算出ユニットは、任意の語彙について、参照形式の返答情報における語彙の出現回数の対数値をペナルティ重みとして使用するように構成される。
ある態様によれば、音声認識デバイスが提供される。デバイスはメモリおよびプロセッサを含む。メモリは少なくとも1つの命令を記憶し、少なくとも1つの命令は、本願の実施形態の第1態様または第1態様の任意の想定可能な実装における方法を実装するためにプロセッサによりロードおよび実行される。
オプションで、1つまたは複数のプロセッサがあり、1つまたは複数のメモリがある。
オプションで、メモリはプロセッサと統合されてよく、または、メモリおよびプロセッサは別個に配置される。
特定の実装プロセスにおいて、メモリは、非一時的(non-transitory)なメモリ、例えば、リードオンリメモリ(read only memory、ROM)であってよい。メモリおよびプロセッサは1つのチップに統合されてもよいし、異なるチップに配置されてもよい。本願の本実施形態では、メモリの種類とメモリおよびプロセッサの配置方式とについて限定しない。
別の態様によれば、コンピュータ可読記憶媒体が提供される。コンピュータ可読記憶媒体はプログラムまたは命令を記憶し、命令は、上述の音声認識方法のいずれか1つを実装するためにプロセッサによりロードおよび実行される。
コンピュータプログラム(製品)が更に提供される。コンピュータプログラム(製品)はコンピュータプログラムコードを含む。コンピュータ上でコンピュータプログラムコードが実行されると、上述の音声認識方法のいずれか1つをコンピュータに行わせることができる。
チップが更に提供される。チップはプロセッサを含む。プロセッサは、メモリに記憶されている命令を呼び出し実行して、チップがインストールされている通信デバイスに、上述の音声認識方法のいずれか1つを行わせるように構成される。
別のチップが更に提供される。チップは、入力インタフェース、出力インタフェース、プロセッサ、およびメモリを含む。入力インタフェース、出力インタフェース、プロセッサ、およびメモリは、内部接続パスを介して接続される。プロセッサは、メモリ内のコードを実行するように構成される。コードが実行されると、プロセッサは、上述の音声認識方法のいずれか1つを行うように構成される。
本願の実施形態で提供する技術的解決策によって、少なくとも以下の有益な効果がもたらされる。
本願の実施形態では、第1意図の返答情報に基づき前端部分とコア部分とを含む動的目標言語モデルを取得または生成し、音声信号を解析してキーワードを取得した後、動的目標言語モデルを呼び出してキーワードを解析することで第2意図およびサービス内容を取得する。動的目標言語モデルは第1意図の返答情報に基づき取得されるので、動的目標言語モデルを使用して解析することにより取得される第2意図およびサービス内容はどちらも第1意図に関連している。従って、本願の実施形態では、第1意図と無関係な音声が無視され、すなわち、複数の意図を含む不連続音声を認識することができ、その結果、提供されるサービスの内容がユーザ要求から逸脱せず、認識効果が良好であり、ユーザエクスペリエンスが向上する。
本願で提供する技術的解決策は、少なくとも以下の有益な効果を含む。
本願の実施形態では、第1意図の返答情報に基づき前端部分とコア部分とを含む動的目標言語モデルを取得または生成し、音声信号を解析してキーワードを取得した後、動的目標言語モデルを呼び出してキーワードを解析することで第2意図およびサービス内容を取得する。動的目標言語モデルは第1意図の返答情報に基づき取得されるので、動的目標言語モデルを使用して解析することにより取得される第2意図およびサービス内容はどちらも第1意図に関連している。従って、本願の実施形態では、第1意図と無関係な音声が無視され、すなわち、複数の意図を含む不連続音声を認識することができ、その結果、提供されるサービスの内容がユーザ要求から逸脱せず、認識効果が良好であり、ユーザエクスペリエンスが向上する。
本願のある実施形態に係る実装環境の概略図である。
本願のある実施形態に係る音声認識方法を実装するためのモジュールの構造図である。
本願のある実施形態に係る音声認識方法のフローチャートである。
本願のある実施形態に係る言語モデルの構造の概略図である。
本願のある実施形態に係る音声認識のフローチャートである。
本願のある実施形態に係る言語モデルの構造の概略図である。
本願のある実施形態に係る言語モデルの構造の概略図である。
本願のある実施形態に係る単語コンフュージョンネットワークの構造の概略図である。
本願のある実施形態に係る音声認識装置の構造の概略図である。
本願の目的、技術的解決策、および利点をより明確にするために、以下では添付図面を参照しながら本願の実装について更に詳細に説明する。
人工知能技術の開発に伴い、生活領域では人工知能システムが広く使用されている。音声認識システムは人工知能システムのうちの1つである。音声認識システムが使用されると、ユーザは音声認識システムに音声命令を送信し、音声認識システムは、その音声命令に対して音声認識を行い、ユーザ命令を理解し、そのユーザ命令に従ってユーザに質問をする必要がある。次に、音声認識システムは、その質問に応答してユーザにより送信された返答音声を認識し、ユーザ返答を理解し、そのユーザ返答で示されるサービスを提供して、ユーザ要求を満たす。従って、音声認識を行う方法がユーザ要求を満たすための鍵となる。
関連技術によって音声認識方法が提供される。この方法では、言語モデルを呼び出して音声命令の認識とユーザ命令の理解とを行った後、ユーザに質問が送信され、その質問に基づき言語モデルが更に調整され、例えば、その質問に関連する語彙集合が言語モデルに統合され、その結果、調整後に取得される言語モデルは、語彙集合内の語彙を認識することができる。ユーザが語彙集合内の語彙を使用することにより返答音声を送信すると、調整後に取得される言語モデルは、その返答音声を認識して、ユーザ要求を満たすことができる。
しかしながら、ユーザにより送信される音声は通常自由自在である。例えば、複数ユーザの車内ナビゲーションシナリオでは、ユーザと車内モジュールとの間で以下の会話が行われ得る。ユーザ:(車内モジュールに対して)近くの四川料理店を探すのを手伝ってください。車内モジュール:(ユーザに対して)四川料理店Aに行きたいですか?ユーザ:(車両内の別のユーザに対して)正午です。駐車の問題はありますか?(車内モジュールに対して)はい、四川料理店Aです。
この対話は、関連技術で提供される方法を使用することにより行われる。この場合は、車内モジュールの音声認識システムが音声命令に従って質問をした後、質問における「四川料理店A」という語彙を言語モデルに統合して、調整後に取得される言語モデルを取得してよい。次に、ユーザが「四川料理店A」を使用することにより「はい、四川料理店Aです」という返答音声を送信する場合は、調整後に取得される言語モデルが返答音声を認識してよい。しかしながら、上述の対話では、ユーザはまず、車両内の別のユーザと通信するために無関係な音声を送信する。従って、調整後に取得される言語モデルは無関係な音声も返答音声として認識し、それによって理解に誤りが生じる。関連技術で提供される音声認識方法は認識効果およびユーザエクスペリエンスに乏しいことが分かる。
本願のある実施形態は、音声認識方法を提供するものであり、方法は、図1に示す実装環境で使用されてよい。図1は、オーディオデバイス、メモリ、および中央処理装置(central processing unit、CPU)を含む。オーディオデバイスは、マイクロフォン配列(microphone array)およびスピーカ(speaker)を含み、メモリは、音声認識を行うように構成されるモジュールのプログラムまたは命令を記憶する。オーディオデバイス、メモリ、およびCPUは、データバス(data bus、D-Bus)を介して通信可能に接続される。このようにして、CPUは、マイクロフォン配列を呼び出してユーザにより送信される音声信号を収集し、収集された音声信号に基づき、モジュールの、メモリに記憶されているプログラムまたは命令を実行し、スピーカを呼び出して実行結果に基づきユーザに音声信号を送信する。
更に、図1を参照されたい。CPUは、ゲートウェイ(gateway)を介してクラウドサービスにアクセスして、クラウドサービスにより返信されるデータを取得してもよい。CPUは更に、ゲートウェイを介してコントローラエリアネットワークバス(controller area network bus、CAN-Bus)にアクセスして、別のデバイスのステータスを読み取り、制御してよい。
オプションで、図1に示す実装環境の概略図では、音声認識を行うように構成されるモジュールの、メモリに記憶されているプログラムまたは命令は、図2の循環音声バッファモジュール、AMモジュール、SLモジュール、動的LMモジュール、SLUモジュール、DMモジュール、およびNCMプロセスなどのプログラムまたは命令を含む。図1のCPUは、モジュールの、メモリに記憶されているプログラムまたは命令を実行して、音声認識を実装する。以下では、図2に示す、本実施形態で提供する音声認識方法を実装するためのモジュールの機能を参照しながら音声認識プロセスについて説明する。
前端言語(前端音声)モジュールは、ユーザにより送信される音声信号を交通騒音および音楽などの非音声信号と区別するように構成され、更には、ユーザにより送信される音声信号に対して騒音の低減および増強などの処理を行うように構成され、その後の識別および理解の精度が向上する。
循環音声バッファ(循環バッファ)モジュールは、前端言語モデルにより処理される音声信号をバッファリングするように構成され、その結果、記憶されている音声信号を複数回にわたって認識および理解することができる。循環音声バッファは基準時間長を有する。バッファリングされた音声信号の時間長が基準時間長より長い場合は、記憶時間の最も長い音声信号が新しい音声信号で上書きされる。
音響モデル(acoustic model、AM)モジュールは、循環音声バッファモジュールに記憶されている音声信号を取得し、かつ、その音声信号を音素列に変換するように構成される。
選択的聴取(selective listening、SL)モジュールは、動的言語モデル(dynamic language model、Dynamic LM)モジュールを呼び出し、AMモデルにより出力される音素列をキーワードに変換し、かつ、そのキーワードを口語理解(spoken language understanding、SLU)モジュールに送信するように構成される。
SLUモジュールは、キーワードから意図および意味論的スロットを抽出して、ユーザの音声信号で示される第1意図、第2意図、および更なる意図を理解するように構成される。
対話管理(dialogue manager、DM)モジュールは、第1意図に基づきクラウドサービスからの返答情報を要求するように構成される。
アプリケーション管理(application manager、APP Manager)モジュールは、クラウドサービス(cloud service)により返信される返答情報を参照形式の返答情報に変換するように構成される。
対話管理(dialogue manager、DM)モジュールは更に、APPマネージャモジュールにより返信される参照形式の返答情報に基づき、関連分野における非連続的な複数意図の(non-continuous multi-intent、NCM)プロセスを開始するように構成され、応答生成(response generator、RG)モジュールを制御して返答内容を生成し、音声再生を行うように構成される。DMモジュールは更に、第2意図および更なる意図に基づきAPPマネージャモジュールに命令を送信して、アプリケーションまたは端末デバイスを制御してサービス内容および更なる意図を実行するように構成される。
アプリケーション管理(application manager、APP Manager)モジュールは更に、返答情報に対して単語分割、タグ付け、および固有名詞のタグ付けを行うように構成される。アプリケーション管理モジュールは更に、DMモジュールにより送信される命令に従ってアプリケーションおよび端末デバイスを管理して、アプリケーションまたは端末デバイスを制御してサービス内容および更なる意図を実行するように構成される。
図1に示す実装環境に基づき、図3を参照されたい。本願のある実施形態は音声認識方法を提供する。図3に示すように、この方法は以下の段階を含む。
段階201:第1意図の返答情報に基づき動的目標言語モデルを取得または生成する。ここで、動的目標言語モデルは前端部分およびコア部分を含み、コア部分は、返答情報に関連する想定可能な説明を決定するように構成され、前端部分は、返答情報の確証的情報の説明を決定するように構成される。
第1意図は、ユーザとシステムとの間の会話が開始した後にユーザの音声命令信号を解析することにより取得される意図である。例として、上述の口語対話を使用する。ユーザの音声命令信号は、ユーザにより送信される「近くの四川料理店を探すのを手伝ってください」という音声である。音声命令信号を解析することは、音響モデルを呼び出して音声命令信号を音素列に変換することであって、音素は言語の最小音素単位である(例えば、中国語で、音素とは最初または最後を指す)、変換することと、次に、言語モデルを呼び出して音素列を語系列に変換することであって、語系列は音声命令である、変換することとを含む。言語モデルとは、訓練セットに基づき訓練された言語モデルを指す。音声認識が適用される分野に基づき、適切な言語モデルが呼び出されてよい。
語系列が取得された後、語系列を解析して第1意図を取得してよい。第1意図は意図および意味論的スロットを含む。意味論的スロットとは、明確な定義または概念を有する語系列内の語彙を指す。例として引き続き、上述の口語対話を使用する。語系列が「近くの四川料理店を探すのを手伝ってください」である場合は、解析により取得される意図が「ナビゲーション」であり、意味論的スロットが「近くの」および「四川料理店」であり、その結果、取得される第1意図が「近くの四川料理店にナビゲートする」である。次に、第1意図の返答情報は、取得される第1意図に基づき取得されてよく、第1意図の返答情報の内容が意味論的スロットの要件を満たす。返答情報を取得する方式としては、第1意図をクラウドサービスに送信して、クラウドサービスにより返信される返答情報を取得してよい。代替的に、複数の意図と返答情報との間マッピング関係をメモリに記憶してもよく、そのマッピング関係に基づき第1意図に対応する返答情報を検索して返答情報を取得してもよい。
なお、返答情報を取得する方式に関わらず、1つまたは複数の返答情報があってよく、各返答情報は単語列である。更に、複数の返答情報がある場合は、複数の返答情報が選択予定の返答情報として使用されてよく、その結果、ユーザは、複数の返答情報から選択を行うことができる。例として引き続き、上述の口語対話を使用する。1つの返答情報、すなわち、「四川料理店A」があってもよいし、複数の返答情報、例えば、「四川料理店A」、「四川料理店B」、および「四川料理店C」があってもよい。本実施形態では、返答情報の数について限定しない。
次に、動的目標言語モデルは、第1意図の取得された返答情報に基づき取得または生成されてよく、動的目標言語モデルは前端部分およびコア部分を含む。前端部分は、返答情報の確証的情報の説明を決定するように構成され、確証的情報は、以下に限定されるわけではないが、確認情報、修正情報、または取り消し情報などを含んでよい。例えば、確認情報は「その通り」および「はい」を含んでよく、修正情報は「そうではありません」および「間違っています」を含んでよく、取り消し情報は「もういいです」および「必要ありません」を含んでよい。コア部分は、返答情報に関連する想定可能な説明、例えば、ユーザが返答情報を直接繰り返す、または、ユーザが返答情報を選択的に繰り返すといった説明を決定するように構成される。
なお、返答情報に基づき動的目標言語モデルを取得または生成するプロセスについては以下で詳細に説明しており、ここでは詳細について説明しない。当然ながら、動的目標言語モデルを取得または生成するプロセスに関わらず、動的目標言語モデルが取得または生成された後、音声信号が更に受信されてよい。
段階202:音声信号を取得し、音声信号を解析してキーワードを生成する。
車内モジュールが第1意図に対する返答情報を取得した後、車内モジュールはまた、第1意図に対する返答情報に基づき動的目標言語モデルを取得または生成することに加えて、第1意図の返答情報をユーザに送信して音声信号を取得する。なお、音声信号は、ユーザと車内モジュールとの間の対話の音声信号、すなわち、第1意図の返答情報に関する音声信号を含んでよく、そのユーザと別のユーザとの間の対話の無関係な音声信号を含んでもよい。例として引き続き、上述の口語対話を使用する。ユーザと車内モジュールとの間の対話の音声信号は「はい、四川料理店Aです」であり、そのユーザと別のユーザとの間の対話の無関係な音声信号は「正午です。駐車の問題はありますか?」である。当然ながら、上述の無関係な音声信号は、そのユーザが別のユーザへ能動的に話し掛ける対話の音声信号を含んでよく、別のユーザがそのユーザへ能動的に話し掛ける対話の音声信号、すなわち、別のユーザにより差し挟まれる音声の音声信号を含んでもよい。本実施形態では、無関係な音声信号について限定しない。
車内モジュールは、音声信号を取得した後、音声信号を解析してキーワードを生成してよい。オプションで、本実施形態では、音声信号を取得する前、方法は更に、過去の音声信号をバッファリングする段階を含む。この場合は、音声信号を解析してキーワードを生成する段階は、音声信号を解析し、かつ、過去の音声信号を使用することによりコンテキスト検出を行ってキーワードを生成する段階を含む。
過去の音声信号は過去時の音声信号である。例えば、上述の口語対話では、第1意図を取得するために使用される「近くの四川料理店を探すのを手伝ってください」という音声命令信号が過去の音声信号として使用されてよい。本実施形態では、循環バッファを使用することにより過去の音声信号がバッファリングされてよい。循環バッファは基準時間長を有する。バッファリングされた過去の音声信号の時間長が基準時間長より長い場合は、バッファ時間の最も長い過去の音声信号が新しい音声信号で上書きされる。この場合、過去の音声信号を使用する必要がある場合は、過去の音声信号が循環バッファから読み取られる。当然ながら、本実施形態では過去の音声信号をバッファリングする方式について限定しないものとし、過去の音声をバッファリングする要件に基づき別の方式が選択されてよい。
更に、音声信号を解析する方式として、車内モジュールは依然として、音声認識が適用される分野に基づき適切な音響モデルと言語モデルとを呼び出し、その音響モデルおよび言語モデルを使用することにより音声信号を解析して、最初のキーワードを取得してよい。ユーザと車内モジュールとの間の対話の音声信号は、第1意図の返答情報に関するものであるため、ユーザと車内モジュールとの間の対話の音声信号を解析することにより生成される最初のキーワードは、第1意図に関連している。しかしながら、そのユーザと別のユーザとの間の対話の無関係な音声信号を解析することにより生成される最初のキーワードは、第1意図と無関係である。従って、コンテキスト検出を行うために過去の音声信号を使用する必要があり、その結果、最初のキーワードに基づき生成されるキーワードは第1意図にのみ関連しており、すなわち、第1意図と無関係な最初のキーワードは無視される。
過去の音声信号を使用することによりコンテキスト検出を行う方式は、最初のキーワードのうち過去の音声信号に関連するキーワードを検出することで、過去の音声信号に対応する語系列に関連するキーワードが、生成されたキーワードとして使用されるようにすることを含んでよい。例えば、「正午です。駐車の問題はありますか?はい、四川料理店Aです」という音声信号が解析され、取得される最初のキーワードが「正午」、「駐車」、「はい」、および「四川料理店A」を含む。最初のキーワードのうち、「近くの四川料理店を探すのを手伝ってください」という過去の音声信号に関連するキーワードが「はい」および「四川料理店A」を含む。従って、「正午」および「駐車」が無視されてよく、「はい」および「四川料理店A」のみが、生成されたキーワードとして使用される。
当然ながら、本実施形態では、過去の音声信号を使用することによりコンテキスト検出を行う方式について限定しない。キーワードを検出および生成する方式に関わらず、キーワードが生成された後、キーワードを解析するように動的目標言語モデルをトリガおよび呼び出して、第2意図およびサービス内容を決定してよい。詳細については段階203で説明する。
段階203:動的目標言語モデルを呼び出して第2意図およびサービス内容を決定する。ここで、動的目標言語モデルの前端部分は、キーワードに基づき第2意図を解析し、動的目標言語モデルのコア部分は、キーワードに基づきサービス内容を解析する。
段階201の説明からは、動的目標言語モデルが前端部分およびコア部分を含むことが分かる。動的目標言語モデルは第1意図の返答情報に基づき取得されるので、動的目標言語モデルを使用することにより決定される第2意図およびサービス内容はどちらも第1意図に関連している。前端部分は、返答情報の確証的情報の説明を決定するように構成される。従って、前端部分を使用してキーワードを解析することによりキーワード内の確証的情報が取得されてよく、キーワード内の確証的情報を使用することによりユーザの第2意図が更に取得される。例として、上述の口語対話を使用する。第1意図の返答情報は「四川料理店Aに行きたいですか?」であり、解析により取得されるキーワードが「はい」および「四川料理店A」である。この場合は、前端部分を使用して解析することにより、キーワードのうち「はい」が取得されてよく、次に、「四川料理店Aに行く」というユーザの第2意図が取得される。更に、コア部分を使用して解析することにより、キーワードのうち「四川料理店A」が取得され、現在の車内ナビゲーションシナリオを参照して「四川料理店Aにナビゲートする」というサービス内容が取得される。
第1意図の返答情報がオプションを1つのみ含む場合は、前端部分を使用することによりユーザの第2意図が決定され得ることが分かる。第1意図の返答情報が2つまたはそれより多くのオプションを含む場合は、前端部分およびコア部分を使用することによりユーザの第2意図が決定され得る。例えば、第1意図の返答情報が「以下のうちどちらを選択したいですか?第1オプションが四川料理店Aで、第2オプションが四川料理店Bです」であり、解析により取得されるキーワードが依然として「はい」および「四川料理店A」である場合は、前端部分を使用することにより、キーワードのうちの「はい」という確証的情報が依然として解析され得る。しかしながら、「はい」のみを使用することにより、ユーザの第2意図が「四川料理店A」と「四川料理店B」のどちらであるかを判断することはできない。従って、コア部分を使用して解析することにより、キーワードのうち「四川料理店A」を取得して、最終的に、ユーザの第2意図が「四川料理店Aに行く」であり、サービス内容が「四川料理店Aにナビゲートする」であると判断する必要がある。
なお、前端部分でキーワードを解析することにより取得される確証的情報が確認情報、例えば、上述の口語対話における「はい」を含む場合は、キーワードは更に、サービス内容を取得するためにコア部分を使用することにより解析されてよい。前端部分でキーワードを解析することにより取得される確証的情報が修正情報または取り消し情報、例えば、「いいえ」および「間違っています」などの語彙を含む場合は、これは、ユーザが返答情報を承認せず、返答情報に応答しないかもしれないことを示し、コア部分を使用して解析することによりサービス内容を取得する必要はない。代わりに、別の返答情報が再取得され、別の返答情報に基づき新しい動的目標言語モデルが取得されて、新しい動的目標言語モデルを使用することにより音声認識が完了する。
当然ながら、動的目標言語モデルを呼び出すことにより、第2意図およびサービス内容に加えて、第2意図およびサービス内容の信頼水準並びに音声信号内のミュート信号セグメントなどの情報が更に取得されてよく、信頼水準は、第2意図およびサービス内容の精度を示すために使用される。
第2意図およびサービス内容が取得された後、サービス内容で示されるサービスがトリガおよび提供されてよい。例えば、上述の口語対話におけるサービス内容は「四川料理店Aにナビゲートする」である。この場合は、現在の場所(すなわち、上述の口語対話が行われる場所)から「四川料理店A」が位置する場所にユーザをナビゲートするためのナビゲーションデバイスを呼び出すことを含む、サービス内容が実行される。
オプションの実装では、サービス内容が実行される前、本実施形態で提供する方法は更に、第2意図を確認して、確認された第2意図を取得する段階と、確認された第2意図を実行する段階とを含む。この実装では、動的目標言語モデルが第1意図の返答情報に基づき取得または生成されるが、動的目標言語モデルを使用することにより決定される第2意図およびサービス内容が依然として第1意図とは一致していないかもしれないと考えられる。従って、サービス内容が実行される前に、第2意図を確認して、第2意図が第1意図と確実に一致しているようにする。確認された第2意図が取得された後、確認された第2意図は実行される。
第2意図が第1意図と一致していることは、以下に限定されるわけではないが、第2意図が第1意図の返答情報に対応する(例えば、「四川料理店Aに行く」という第2意図が第1意図の返答情報「四川料理店A」に対応する)ことを含む。代替的に、第2意図は、第1意図に含まれる制限を満たす(例えば、「四川料理店Aに行く」という第2意図は、第1意図に含まれる「近くの」という距離制限を満たす)。
オプションで、第2意図を確認して、確認された第2意図を取得する方式は、ユーザに第2意図の確認情報を送信し、ユーザによりフィードバックされる第2意図を取得し、かつ、ユーザによりフィードバックされる第2意図を、確認された第2意図として使用することを含む。
上述の説明からは、動的目標言語モデルを使用することにより第2意図およびサービス内容の信頼水準が取得され得ることが分かる。従って、本実施形態では、異なる信頼水準に基づき異なる確認情報をユーザに送信して、第2意図を確認してよい。例えば、第2意図は「四川料理店Aに行く」である。信頼水準が閾値より高い場合は、これは、第2意図が比較的信頼できることを示す。従って、第2意図は間接的な確認方式で確認されてよい。例えば、デフォルトで第2意図が正しいと判断するための音声「四川料理店Aを選択しています」を第2意図の確認情報としてユーザに送信して、ユーザにより返信される第2意図を取得する。信頼水準が閾値より高くない場合は、これは、第2意図の信頼水準が比較的低いことを示す。従って、第2意図は直接的な確認方式で確認される。例えば、「本当に四川料理店Aを選択したいですか?」という音声がユーザに送信される。
間接的な確認方式で送信される確認情報と、直接的な確認方式で送信される確認情報とはどちらも音声確認情報である。ユーザによりフィードバックされる第2意図を、音声確認情報を使用することにより依然として取得できない場合は、別の形態の確認情報、例えば、テキスト確認情報を選択してユーザの第2意図を確認してよい。オプションで、端末がユーザに第1意図の返答情報を表示し、その結果、ユーザは、その端末を使用することにより任意の返答情報を選択し、ユーザにより選択される返答情報で示される意図を、確認された第2意図として使用し、確認された第2意図を実行して、音声認識を完了する。
次に、上述の口語対話を拡張して以下の複雑な対話を取得する。ユーザ:(車内モジュールに対して)近くの四川料理店を探すのを手伝ってください。車内モジュール:(ユーザに対して)四川料理店Aに行きたいですか?ユーザ:(車両内の別のユーザに対して)正午です。駐車の問題はありますか?(車内モジュールに対して)はい、四川料理店Aです。更に、駐車スペースを探すのを手伝ってください。
この複雑な対話では、ユーザが「はい、四川料理店Aです」と表現した後、ユーザが更に「更に、駐車スペースを探すのを手伝ってください」という更なる意図を表現し、その結果、この複雑な対話によって複数意図の対話が形成されることが分かる。
この点で、オプションの実装では、動的目標言語モデルは更に後端部分を含み、後端部分は、更なる意図が存在するかどうかを判断するように構成される。従って、本実施形態で提供する方法は更に、動的目標言語モデルを呼び出して更なる意図を決定し、かつ、動的目標言語モデルの後端部分を使用することによりキーワードに基づき更なる意図を解析して、上述の複数意図の対話における各意図を認識する段階を含む。
この実装では、前端部分を使用することにより第2意図を取得し、かつ、コア部分を使用することによりサービス内容を取得する段階に加えて、キーワードは更に、更なる意図を取得するために後端部分を使用ことにより解析される。前端部分、コア部分、および後端部分の概略図については、図4を参照されたい。図4では、外れ語彙(out of vocabulary、OOV)が、辞書にない語彙を表し、辞書は、音素列に基づき単語を取得するために使用される。epsはジャンプエッジを表し、オプションの部分を示すために使用される。
オプションで、後端部分は後端指示語を含み、後端指示語は、以下に限定されるわけではないが、「加えて」、「も」、および「ついでに」などの語彙を含む。例えば、上述の複数意図の対話では、後端指示語が「加えて」である。ユーザによる後端指示語の説明は通常比較的固定されているので、複数の後端指示語を含むセットが、言語モデルを訓練するためのコーパスとして使用されてよく、訓練された言語モデルが後端部分として使用される。従って、動的目標言語モデルを呼び出して更なる意図を決定し、かつ、動的目標言語モデルの後端部分を使用することによりキーワードに基づき更なる意図を解析する段階は、後端部分を使用することによりキーワードに基づき、参照後端指示語と参照後端指示語が位置する時点とを解析する段階と、第1意図および第2意図を参照して参照後端指示語に基づき動的目標言語モデルを更新して、更新された目標言語モデルを取得する段階と、更新された目標言語モデルを呼び出して、キーワードと参照後端指示語が位置する時点とに基づき更なる意図を解析する段階とを含む。
参照後端指示語は、コーパスとして使用される複数の後端指示語のセットにおける1つの単語である。参照後端指示語が存在する場合は、これは、更なる意図がないことを示し、上述のサービス内容で示されるサービスが直接提供されてよい。参照後端指示語が存在しない場合は、これは、更なる意図があることを示し、この場合は、後端部分は更に、参照後端指示語が位置する時点を取得する。
参照後端指示語が存在する場合は、第1意図および第2意図に基づき言語モデルが更に呼び出される。言語モデルは、第1意図および第2意図が位置する分野の言語モデルであってよい。例えば、上述の複数意図の対話において、第1意図および第2意図が位置する分野が「ナビゲーション」である場合は、動的目標言語モデルに取って代わるナビゲーション分野の言語モデルを取得して、更新された目標言語モデルを取得してよい。
次に、参照後端指示語が位置する時点より後のキーワードを解析するために、更新された目標言語モデルを呼び出して、ユーザの更なる意図を取得する。例えば、上述の複数意図の会話では、参照後端指示語が「加えて」である。「加えて」が位置する時点より前の音声信号が「正午です。駐車の問題はありますか?はい、四川料理店Aです。」である。動的目標言語モデルの前端部分およびコア部分により、この音声信号に含まれるキーワードが解析された。従って、「加えて」が位置する時点より後の音声信号に含まれるキーワード、すなわち、「駐車スペースを探すのを手伝ってください」に含まれるキーワードを解析するために、更新された目標言語モデルを呼び出して、ユーザの更なる意図を取得してよい。
なお、本実施形態は更に、目標言語モデルを更新する別の方法を提供する。この方法では、第1意図および第2意図に基づき言語モデルが取得された後、その言語モデルと後端部分との組み合わせモデルが、更新された目標言語モデルとして使用される。従って、図5を参照されたい。解析により更なる意図を取得した後、更新された目標言語モデルは、周期的な反復を行って、より多くの更なる意図が存在するかどうかを検出してよい。これによって、認識され得る意図の数が増加する。
更に、更なる意図が存在する場合は、更新された目標言語モデルを使用して解析することにより更なる意図が取得された後、以下の方法を使用することにより第2意図が実行される。方法は、更なる意図が存在する場合に、サービス内容および更なる意図を実行する段階を含む。サービス内容が取得された後、サービス内容はすぐには実行されない。代わりに、音声信号に更なる意図が存在するかどうかはまず、後端部分を使用することにより判断される。更なる意図が存在する場合は、更なる意図が取得され、最終的にサービス内容および更なる意図が実行される。取得されたサービス内容は、後端情報を使用することにより、音声信号に更なる意図が存在しないと判断された場合にのみ実行される。
更に、サービス内容および更なる意図を実行する段階は、サービス内容および更なる意図を一緒に実行する段階、またはサービス内容および更なる意図を順次実行する段階を含む。例えば、サービス内容が「四川料理店Aにナビゲートする」であり、かつ、更なる意図が「曲を再生する」である場合は、サービス内容を実行するプロセスで更なる意図が実行されてよい。すなわち、サービス内容および更なる意図が一緒に実行されてよい。サービス内容が「四川料理店Aにナビゲートする」であり、かつ、更なる意図が「駐車スペースを探す」である場合は、サービス内容および更なる意図を順次実行する必要がある。更には、異なる実行体により異なるサービス内容および更なる意図が実行されてよい。例えば、異なるサービス内容および更なる意図は、サードパーティのクラウドサービスにより実行されてもよいし、車内モジュールにより実行されてもよいし、車載端末により実行されてもよいし、自動車企業により実行されてもよい。車載端末は、車両上の車内モジュール以外の別の端末、例えば、車載ディスプレイ、車載空調装置、または車載スピーカであってよい。当然ながら、異なるサービス内容および更なる意図は代替的に、サードパーティのクラウドサービス、車内モジュール、車載端末、および自動車企業のうちの2つまたはそれより多くにより実行されてもよい。本願の本実施形態ではこれについて限定しない。
以下では、上述の段階201における第1意図の返答情報に基づき動的目標言語モデルを取得または生成するプロセスについて詳細に説明する。
オプションで、第1意図の返答情報に基づき動的目標言語モデルを取得または生成する段階は、第1意図の返答情報を参照形式に変換して参照形式の返答情報を取得し、かつ、参照形式の返答情報に基づき動的目標言語モデルを取得または生成する段階を含む。
上述の説明からは、動的目標言語モデルが少なくとも前端部分およびコア部分を含んでおり、更には後端部分を含み得ることが分かる。前端部分は、返答情報の確証的情報の説明を決定するように構成される。後端部分と同様に、返答情報の確証的情報がユーザにより比較的しっかりと説明されているので、前端部分については、確認、修正、または取り消しに使用される複数の確証的情報を含むセットが、言語モデルを訓練するためのコーパスとして使用されてよい。訓練された言語モデルが前端部分として使用され、その結果、前端部分は、キーワードを解析して確認情報、修正情報、または取り消し情報などの確証的情報を取得する能力を有する。コア部分は、上述した参照形式の返答情報に基づき取得する必要がある。
返答情報は複数の提供者により提供されてよい。異なる提供者によって異なる形式の返答情報が提供され得るので、返答情報を参照形式に変換して返答情報の形式を統一し、返答情報を受信し易くする必要がある。異なる適用分野における返答情報は異なる参照形式に変換されてよく、その結果、同じ適用分野における返答情報は同じ形式になる。例えば、車内ナビゲーションの分野では、返答情報が通常住所である。従って、住所は、国(または地域)、県(または州)、市、地区、道路、および番地の形式で統一され得る。別の例として、関心地点(point of interest、POI)の分野では、返答情報が通常関心地点に関連している。従って、返答情報は、分類名、住所、電話番号、およびユーザコメントの形式で統一されてよい。分類名は、ホテル、レストラン、モール、ミュージアム、コンサートホール、映画館、スタジアム、病院、またはドラッグストアであってよい。
更には、返答情報が参照形式に変換される前、返答情報に対する単語分割およびタグ付けを行って、参照形式の変換を実装し易くしてよい。単語分割およびタグ付けとは単語列を語彙に分解することを指し、分解により取得された語彙が固有名詞を含む場合は、その固有名詞がタグ付けされてよい。単語分割およびタグ付けはどちらも、人工知能アルゴリズムを使用することにより実装されてよい。本実施形態では、人工知能アルゴリズムは、以下に限定されるわけではないが、条件付き確率場(conditional random field、CRF)、長短期記憶(long short term memory、LSTM)ネットワーク、および隠れマルコフモデル(hidden Markov model、HMM)を含む。
本実施形態では、参照形式の返答情報が取得された後、動的目標言語モデルは更に、参照形式の返答情報に基づき取得または生成される。オプションで、参照形式の返答情報に基づき目標言語モデルを取得するには、以下の3つの方式がある。
第1取得方式:訓練された言語モデルを重み付き有限状態トランスデューサに変換し、かつ、重み付き有限状態トランスデューサを動的目標言語モデルとして使用する。訓練された言語モデルは、参照形式の返答情報と参照語彙とを訓練することにより取得される。
参照語彙は、以下に限定されるわけではないが、参照形式の返答情報内の語彙に対応する分類名と、代表表現語とを含む。単語分割およびタグ付けなどの方式で参照形式の返答情報内の語彙を取得して、語彙に対応する分類名を更に取得してよい。例えば、「四川料理店A」の分類名は「レストラン」である。代表表現語は、参照形式の任意の返答情報を参照するために使用される。例えば、参照形式の返答情報が複数ある場合は、代表表現語は、「第1オプション」、「真ん中のオプション」、「最後から2番目のオプション」、および「最後のオプション」などを含む。
訓練された言語モデルは、参照形式の返答情報と参照語彙とをコーパスとして使用することにより訓練される最初の言語モデルを含む。オプションで、最初の言語モデルはNグラムモデルであってよい。Nグラムモデルの概略図については、図6を参照されたい。Nグラムモデルでは、ある単語の出現確率がその単語の前にあるN個の単語にのみ関連しており、他の単語には関連していないことが想定される。例えば、Nの値が3である場合は、Nグラムモデルが三次モデルであり、この場合は、ある単語の出現確率がその単語の前にある2つの単語に関連している。すなわち、i番目の単語Xの出現確率がP(X|Xi-1,Xi-2)である。従って、Nグラムモデルは、1つの単語が別の単語の後に出現する確率、すなわち、2つの単語が隣接して出現する確率を算出することができる。コーパスを使用することによりNグラムモデルを訓練して、訓練されたNグラムモデルを取得する。訓練されたNグラムモデルは、コーパスに含まれる単語が隣接して出現する確率を算出した。
更に、訓練された言語モデルは、重み付き有限状態トランスデューサ(weighted finite state transducer、WFST)に変換されてよい。WFSTは、辞書に基づき入力音素列を単語に変換し、訓練された言語モデルにより算出される、単語が隣接して出現する確率に基づき、隣接して出現する単語の重みを取得し、その重みに基づきコア情報を出力することができる。コア情報は語系列と見なされ得るため、コア情報の出現確率は、その語系列に含まれ、かつ、隣接して出現する、全ての単語の重みの積である。
更に、訓練された言語モデルの解析範囲は変換により拡大されてよく、訓練された言語モデルは、キーワードを解析することにより返答情報内の語彙と参照語彙とを取得してよく、変換により取得されるWFSTは、返答情報内の語彙と参照語彙とを解析により取得してよく、返答情報内の語彙、語彙に対応する分類名、または代表表現語のうちの2つまたは3つの組み合わせを取得してもよい。例えば、WFSTは、代表表現語の「真ん中のレストラン」と語彙に対応する分類名との組み合わせなどを解析してよい。
WFSTは動的目標言語モデルのコア部分であることが分かる。次に、WFSTおよび前端部分(またはWFST、前端部分、および後端部分)は、動的目標言語モデルとすることができる。
第2取得方式:訓練された言語モデルを重み付き有限状態トランスデューサに変換し、かつ、重み付き有限状態トランスデューサを第1言語モデルとして使用することであって、訓練された言語モデルは、参照形式の返答情報を訓練することにより取得され、返答情報の長さは基準長以上である、使用することと、参照形式の返答情報に基づき第2言語モデルを取得することであって、返答情報の長さは基準長より短い、取得することと、参照語彙に基づき第3言語モデルを取得することとを行うことと、第1言語モデルと、第2言語モデルと、第3言語モデルとを組み合わせて総合言語モデルを取得し、かつ、総合言語モデルを動的目標言語モデルとして使用することとを行う。
参照語彙については、第1取得方式における説明を参照されたい。ここでは詳細について改めて説明しない。第1取得方式と比較して、第2取得方式では、長さが基準長より短い返答情報と参照語彙とはコーパスとして使用されず、長さが基準長以上の返答情報のみがコーパスとして使用される。訓練された言語モデルは、長さが基準長以上の返答情報をコーパスとして使用することにより訓練される最初の言語モデルであり、最初の言語モデルは依然としてNグラムモデルであってよい。オプションの実装では、基準長は2、すなわち、2つの単語である。
その理由は、Nグラムモデルがバックオフ(back-off)アルゴリズムを使用するからである。バックオフアルゴリズムとは、コーパスに出現していない語系列について、より低次の語系列の出現確率を語系列の出現確率として使用して、Nグラムモデルが任意の入力音素列に関する結果を確実に出力できるようにし得ることを意味する。例えば、語系列(Xi-2,Xi-1,X)が三次モデルのコーパスに存在しない場合は、モデルは、X番目の単語の出現確率P(X|Xi-1,Xi-2)を算出しない。語系列(Xi-2,Xi-1,X)がユーザにより使用される場合は、より低次(二次)のP(X|Xi-1)に基づきP(X|Xi-1,Xi-2)を推定して(Xi-2,Xi-1,X)を解析する。
訓練された言語モデルは、返答情報に関連する想定可能な説明を決定するために使用され、ユーザは通常、異なる長さの返答情報に対して異なる音声信号を送信して返答情報を繰り返すことで、返答情報を確認または選択する。長さが基準長より短い返答情報については、ユーザは通常、返答情報全体の中の幾つかの単語を繰り返す代わりに、返答情報全体を繰り返す。長さが基準長より短い返答情報をコーパスとして使用することによりバックオフアルゴリズムを含むNグラムモデルが訓練される場合は、訓練された言語モデルにより、出現確率が比較的低い幾つかの語系列が算出される。これは、訓練された言語モデルの解析効果に影響を及ぼす。基準長は、シナリオまたは経験に基づき設定されてもよいし、音声認識プロセスで調整されてもよい。本願の本実施形態ではこれについて限定しない。
例えば、車内ナビゲーションシナリオでは、「東方明珠電視塔」は、長さが1の返答情報として使用され得る。「東方明珠電視塔(Dong Fang Ming Zhu)」がコーパスとして使用される場合は、訓練された言語モデルが「Dong Ming」および「Fang Zhu」などの語系列を提供することになり、語系列の出現確率が低い。従って、本実施形態では、バックオフアルゴリズムを使用しない第2言語モデルが、長さが基準長より短い返答情報に基づき取得され、第2言語モデルがキーワード内の返答情報のみを解析し、返答情報の全長が基準長より短い。
更に、語彙に対応する分類名と代表表現語とを含む参照語彙については、ユーザの表現方式が比較的固定されており、語彙に対応する分類名と代表表現語との組み合わせの数が比較的限定されている。従って、語彙に対応する分類名、代表表現語、および分類名と代表表現語との組み合わせを訓練用のコーパスとして使用して、バックオフアルゴリズムを使用しない第3言語モデルを取得することができる。
しかしながら、長さが基準長以上の返答情報については、ユーザは通常、返答情報全体の中から幾つかの単語を選択して繰り返す。従って、長さが基準長以上の返答情報を、Nグラムモデルを訓練するためのコーパスとして使用して、訓練された言語モデルを取得してよい。次に、訓練された言語モデルをWFSTに変換して、バックオフアルゴリズムを使用する第1言語モデルを取得する。第1言語モデルは、キーワード内の返答情報全体、または、返答情報全体に含まれる単語の組み合わせを解析してよい。例えば、車内ナビゲーションシナリオにおいて、基準長が2である場合は、「A県B市C地区D通り1号」が、基準長より長い長さを有する返答情報である。ユーザは、「B市」および「D通り1号」などの語系列を選択して繰り返してよい。従って、ユーザにより繰り返される音声信号に含まれるキーワードは、バックオフアルゴリズムを使用する第1言語モデルを使用することにより解析されてよい。
第1言語モデル、第2言語モデル、および第3言語モデルが取得された後、図7に示すように、第1言語モデルと、第2言語モデルと、第3言語モデルとを組み合わせて総合言語モデルを取得し、総合言語モデルは、動的目標言語モデルのコア部分である。総合言語モデルおよび前端部分(または総合言語モデル、前端部分、および後端部分)は、動的目標言語モデルを形成する。
第3取得方式:参照形式の返答情報に基づき単語コンフュージョンネットワークを取得することであって、返答情報の長さは基準長以上であり、単語コンフュージョンネットワーク内の各語彙は遷移確率を有する、取得することと、各語彙のペナルティ重みを算出し、各語彙のペナルティ重みに基づき単語コンフュージョンネットワークを重み付き有限状態トランスデューサに変換し、かつ、重み付き有限状態トランスデューサを第1言語モデルとして使用することと、参照形式の返答情報に基づき第2言語モデルを取得することであって、返答情報の長さは基準長より短い、取得することと、参照語彙に基づき第3言語モデルを取得することとを行うことと、第1言語モデルと、第2言語モデルと、第3言語モデルとを組み合わせて総合言語モデルを取得し、かつ、総合言語モデルを動的目標言語モデルとして使用することとを行う。
参照語彙の説明については、第1取得方式を参照されたい。長さが基準長より短い返答情報に基づき第2言語モデルを取得すること、および、参照語彙に基づき第3言語モデルを取得することの説明については、第2取得方式を参照されたい。ここでは詳細について改めて説明しない。以下では、第1言語モデルを取得するプロセスについて説明する。
単語コンフュージョンネットワーク(confusion network)を取得する方法は、長さが基準長以上の全ての返答情報における同じカテゴリの語彙に対して単語整列(alignment)を行い、かつ、カテゴリの数に1を追加して単語コンフュージョンネットワーク内の状態の数を取得する段階を含む。次に、これらの状態は、アークを使用することにより接続され、各アークは、ある語彙とその語彙に対応する遷移確率とを有する。遷移確率は、語彙が位置するカテゴリにおける語彙の出現頻度を示すために使用される。更に、2つの隣接する状態間の全てのアークに関する遷移確率の合計は1である。
更に、長さが比較的長い返答情報を繰り返す場合は、ユーザは、返答情報全体に含まれる全ての語彙から飛び飛びに語彙を選択して繰り返すことが多い。従って、単語コンフュージョンネットワーク内の状態2つごとの間にスキップエッジを追加して、ユーザにより語彙が飛び飛びに選択される音声信号に含まれるキーワードを解析し易くする必要がある。例えば、図8に示す単語コンフュージョンネットワークでは、epsがスキップエッジを表し、Fが異なるカテゴリを区別するために使用される。
次に、各語彙のペナルティ重みを算出し、ペナルティ重みに基づき単語コンフュージョンネットワークをWFSTに変換して第1言語モデルを取得する。なお、第1言語モデルを使用してキーワードを解析する場合は、第1言語モデルは、音声信号の音素列に対応し得る複数の語系列のペナルティ重みを算出する。語系列のペナルティ重みは、語系列に含まれる語彙のペナルティ重みの積に等しく、ペナルティ重み値が最も小さい語系列が出力される。オプションで、各語彙のペナルティ重みを算出する方式は、限定されるわけではないが、以下の3つの方式を含む。
第1算出方式:任意の語彙について、語彙の遷移確率の負対数値をペナルティ重みとして使用する。
上述の説明からは、語彙の遷移確率が、語彙が位置するカテゴリにおける語彙の出現頻度を示すために使用され、語彙が位置するカテゴリにおける語彙の出現頻度が高いほど遷移確率が高く、遷移確率の負対数値が小さいことを示し、すなわち、ペナルティ重みが出現頻度に反比例することが分かる。このようにして、目標言語モデルは、語彙が位置するカテゴリにおける出現頻度が高い語彙をより適切に解析することができる。
第2算出方式:任意の語彙について、語彙を含む参照形式の返答情報の数の対数値をペナルティ重みとして使用する。
長さが比較的長い複数の返答情報から選択予定の返答情報を繰り返す場合は、ユーザは、別の返答情報内の語彙とは大幅に異なる選択予定の返答情報内の語彙、すなわち、独自性の強い語彙を選択して繰り返す傾向がより強い。例えば、ユーザが「A県B市C地区D通り1号」および「A県B市E地区F道路2号」のうち前者を繰り返す場合は、2つの情報の両方に出現する語彙は「A県」も「B市」も通常選択されない。代わりに、前の情報にのみ出現する語彙「C地区」または「D通り1号」を選択して繰り返す。
本実施形態では、以下の式に従って語彙の独自性の強さが定義される。
Figure 0007343087000001
逆存在頻度(inverse presence frequency、IPF)は、語彙の独自性の強さを示すために使用され、IPFの値が大きいほど、語彙の独自性が強いことを示す。TFiは、カテゴリFにおける語彙を表すために使用され、Nは、参照形式の返答情報の総数であり、nは、語彙TFiを含む参照形式の返答情報の数である。語彙を含む参照形式の返答情報の数が多いほど、IPF値が小さく、語彙の独自性が弱いことを示すことが分かる。
スキップエッジを考慮すると、参照形式の返答情報の総数がNから(N+1)に変化し、IPF(TFi)が更新され、以下の式に従って表現される。
Figure 0007343087000002
更に、スキップエッジを区別できない、すなわち、スキップエッジが参照形式の各返答情報に出現すると仮定すると、スキップエッジのIPF(skip)は、以下のように表されてよい。
Figure 0007343087000003
本実施形態では、上述のIPF(skip)を書き換えて、スキップエッジのIPF値が常に0に等しくなるのを回避してもよい。書き換えられたIPF(skip)は以下の式に従って表される。
Figure 0007343087000004
更には、以下の式に従ってIPF(TFi)に基づき語彙のペナルティ重みが定義されてよく、取得された語彙のペナルティ重みは、語彙を含む参照形式の返答情報の数の対数値である。
Figure 0007343087000005
それに応じて、スキップエッジのペナルティ重みPenalty(skip)が以下のように定義されてよい。
Figure 0007343087000006
この算出方式では、独自性の強い語彙、すなわち、数が比較的少ない参照形式の返答情報に含まれる語彙に対してより小さなペナルティ重みが与えられ、その結果、目標言語モデルがこれらの独自性の強い語彙をより適切に解析できることが分かる。
第3算出方式:任意の語彙について、参照形式の各返答情報における語彙の出現回数の対数値をペナルティ重みとして使用する。
第3算出方式では、以下の式に従って語彙の独自性の強さが引き続き定義されてよい。
Figure 0007343087000007
しかしながら、第2算出方式とは異なり、Nは、参照形式の各返答情報に含まれる語彙の総数を表し、nは、参照形式の各返答情報における語彙TFiの出現回数を表す。次に、第2算出方式の式に基づき、語彙TFiのペナルティ重みPenalty(TFi)が以下のように定義されてよく、その結果、語彙のペナルティ重みは、参照形式の各返答情報における語彙の出現回数の対数値として取得される。
Figure 0007343087000008
独自性の強い語彙、すなわち、出現回数が少ない語彙はペナルティ確率が低くなり、その結果、動的目標言語モデルは、独自性の強い語彙をより適切に解析できることが分かる。
第1言語モデルを取得する算出方式に関わらず、第1言語モデルが取得された後、第1言語モデルと、第2言語モデルと、第3言語モデルとを組み合わせて総合言語モデルを取得することができ、総合言語モデルは、動的目標言語モデルのコア部分である。次に、総合言語モデルおよび前端部分(または総合言語モデル、前端部分、および後端部分)は、動的目標言語モデルを形成することができる。
結論として、本願の本実施形態では、第1意図の返答情報に基づき前端部分とコア部分とを含む動的目標言語モデルを取得または生成し、音声信号を解析してキーワードを取得し、次に、動的目標言語モデルを呼び出してキーワードを解析することで第2意図およびサービス内容を取得する。動的目標言語モデルは第1意図の返答情報に基づき取得されるので、動的目標言語モデルを使用して解析することにより取得される第2意図およびサービス内容はどちらも第1意図に関連している。従って、本願の本実施形態では、第1意図と無関係な音声が無視され、その結果、提供されるサービスの内容がユーザ要求から逸脱せず、認識効果が良好であり、ユーザエクスペリエンスが向上する。
更に、本願の本実施形態では、動的目標言語モデル内の後端部分は、音声信号が複数の意図を有するかどうかを判断して、ユーザの各意図で示されるサービスを提供するように構成される。従って、ユーザエクスペリエンスが更に向上する。
図9に示すように、本願のある実施形態は更に音声認識装置を提供する。
この装置は、第1意図の返答情報に基づき動的目標言語モデルを取得または生成するように構成される第1取得モジュール901であって、動的目標言語モデルは前端部分およびコア部分を含み、コア部分は、返答情報に関連する想定可能な説明を決定するように構成され、前端部分は、返答情報の確証的情報の説明を決定するように構成される、第1取得モジュール901と、音声信号を取得し、かつ、音声信号を解析してキーワードを生成するように構成される第2取得モジュール902と、動的目標言語モデルを呼び出して第2意図およびサービス内容を決定するように構成される第1決定モジュール903であって、動的目標言語モデルの前端部分は、キーワードに基づき第2意図を解析し、動的目標言語モデルのコア部分は、キーワードに基づきサービス内容を解析する、第1決定モジュール903とを含む。
オプションで、動的目標言語モデルは更に後端部分を含み、後端部分は、更なる意図が存在するかどうかを判断するように構成される。装置は更に、動的目標言語モデルを呼び出して更なる意図を決定するように構成される第2決定モジュールを含み、動的目標言語モデルの後端部分は、キーワードに基づき更なる意図を解析する。
オプションで、後端部分は後端指示語を含む。
第2決定モジュールは、後端部分を使用することによりキーワードに基づき、参照後端指示語と参照後端指示語が位置する時点とを解析することと、第1意図および第2意図を参照して参照後端指示語に基づき動的目標言語モデルを更新して、更新された目標言語モデルを取得することと、更新された目標言語モデルを呼び出して、キーワードと参照後端指示語が位置する時点とに基づき更なる意図を解析することとを行うように構成される。
オプションで、装置は更に、過去の音声信号をバッファリングするように構成されるバッファモジュールを含む。
第2取得モジュール902は、音声信号を解析し、かつ、過去の音声信号を使用することによりコンテキスト検出を行ってキーワードを生成するように構成される。
オプションで、装置は更に、第2意図を確認して、確認された第2意図を取得するように構成される確認モジュールを含む。
オプションで、確認モジュールは、ユーザに第2意図の確認情報を送信し、ユーザによりフィードバックされる第2意図を取得し、かつ、ユーザによりフィードバックされる第2意図を、確認された第2意図として使用するように構成される。
オプションで、第1取得モジュール901は、第1意図の返答情報を参照形式に変換して参照形式の返答情報を取得し、かつ、参照形式の返答情報に基づき動的目標言語モデルを取得または生成するように構成される。
オプションで、第1取得モジュールは、訓練された言語モデルを重み付き有限状態トランスデューサに変換し、かつ、重み付き有限状態トランスデューサを動的目標言語モデルとして使用することであって、訓練された言語モデルは、参照形式の返答情報と参照語彙とを訓練することにより取得される、使用することを行うように構成される。
オプションで、第1取得モジュール901は、訓練された言語モデルを重み付き有限状態トランスデューサに変換し、かつ、重み付き有限状態トランスデューサを第1言語モデルとして使用することであって、訓練された言語モデルは、参照形式の返答情報を訓練することにより取得され、返答情報の長さは基準長以上である、使用することと、参照形式の返答情報に基づき第2言語モデルを取得することであって、返答情報の長さは基準長より短い、取得することと、参照語彙に基づき第3言語モデルを取得することとを行うことと、第1言語モデルと、第2言語モデルと、第3言語モデルとを組み合わせて総合言語モデルを取得し、かつ、総合言語モデルを動的目標言語モデルとして使用することとを行うように構成される。
オプションで、第1取得モジュール901は、参照形式の返答情報に基づき単語コンフュージョンネットワークを取得するように構成される第1取得ユニットであって、返答情報の長さは基準長以上であり、単語コンフュージョンネットワーク内の各語彙は遷移確率を有する、第1取得ユニットと、各語彙のペナルティ重みを算出し、各語彙のペナルティ重みに基づき単語コンフュージョンネットワークを重み付き有限状態トランスデューサに変換し、かつ、重み付き有限状態トランスデューサを第1言語モデルとして使用するように構成される算出ユニットと、参照形式の返答情報に基づき第2言語モデルを取得することであって、返答情報の長さは基準長より短い、取得することと、参照語彙に基づき第3言語モデルを取得することとを行うように構成される第2取得ユニットと、第1言語モデルと、第2言語モデルと、第3言語モデルとを組み合わせて総合言語モデルを取得し、かつ、総合言語モデルを動的目標言語モデルとして使用するように構成される組み合わせユニットとを含む。
オプションで、算出ユニットは、任意の語彙について、語彙の遷移確率の負対数値をペナルティ重みとして使用するように構成される。
オプションで、算出ユニットは、任意の語彙について、語彙を含む参照形式の返答情報の数の対数値をペナルティ重みとして使用するように構成される。
オプションで、算出ユニットは、任意の語彙について、参照形式の返答情報における語彙の出現回数の対数値をペナルティ重みとして使用するように構成される。
結論として、本願の本実施形態では、第1意図の返答情報に基づき前端部分とコア部分とを含む動的目標言語モデルを取得または生成し、音声信号を解析してキーワードを取得し、次に、動的目標言語モデルを呼び出してキーワードを解析することで第2意図およびサービス内容を取得する。動的目標言語モデルは第1意図の返答情報に基づき取得されるので、動的目標言語モデルを使用して解析することにより取得される第2意図およびサービス内容はどちらも第1意図に関連している。従って、本願の本実施形態では、第1意図と無関係な音声が無視され、その結果、提供されるサービスの内容がユーザ要求から逸脱せず、認識効果が良好であり、ユーザエクスペリエンスが向上する。
更に、本願の本実施形態では、動的目標言語モデル内の後端部分は、音声信号が複数の意図を有するかどうかを判断して、ユーザの各意図で示されるサービスを提供するように構成される。従って、ユーザエクスペリエンスが更に向上する。
図9で提供する装置が装置の機能を実装する場合は、上述の機能モジュールへの分割を説明のための例として使用しているに過ぎないことを理解されたい。実際の適用では、要件に基づき、上述の機能を複数の異なる機能モジュールに割り当てて実装してよい。すなわち、内部構造の観点からデバイスを複数の異なる機能モジュールに分割して、上述の機能の全てまたは幾つかを実装する。更に、上述の実施形態および方法の実施形態で提供する装置は、同じ概念に関連している。装置の特定の実装プロセスについては、方法の実施形態を参照されたい。ここでは詳細について改めて説明しない。
本願のある実施形態は更に音声認識デバイスを提供する。このデバイスはメモリおよびプロセッサを含む。メモリは少なくとも1つの命令を記憶する。プロセッサで少なくとも1つの命令をロードおよび実行して、本願の本実施形態で提供する音声認識方法を実装する。方法は、第1意図の返答情報に基づき動的目標言語モデルを取得または生成する段階であって、動的目標言語モデルは前端部分およびコア部分を含み、コア部分は、返答情報に関連する想定可能な説明を決定するように構成され、前端部分は、返答情報の確証的情報の説明を決定するように構成される、段階と、音声信号を取得し、かつ、音声信号を解析してキーワードを生成する段階と、動的目標言語モデルを呼び出して第2意図およびサービス内容を決定する段階であって、動的目標言語モデルの前端部分は、キーワードに基づき第2意図を解析し、動的目標言語モデルのコア部分は、キーワードに基づきサービス内容を解析する、段階とを含む。
オプションで、動的目標言語モデルは更に後端部分を含み、後端部分は、更なる意図が存在するかどうかを判断するように構成される。方法は更に、動的目標言語モデルを呼び出して更なる意図を決定し、かつ、動的目標言語モデルの後端部分を使用することによりキーワードに基づき更なる意図を解析する段階を含む。
オプションで、後端部分は後端指示語を含む。動的目標言語モデルを呼び出して更なる意図を決定し、かつ、動的目標言語モデルの後端部分を使用することによりキーワードに基づき更なる意図を解析する段階は、後端部分を使用することによりキーワードに基づき、参照後端指示語と参照後端指示語が位置する時点とを解析する段階と、第1意図および第2意図を参照して参照後端指示語に基づき動的目標言語モデルを更新して、更新された目標言語モデルを取得する段階と、更新された目標言語モデルを呼び出して、キーワードと参照後端指示語が位置する時点とに基づき更なる意図を解析する段階とを含む。
オプションで、音声信号を取得する段階の前に、方法は更に、過去の音声信号をバッファリングする段階を含み、音声信号を解析してキーワードを生成する段階は、音声信号を解析し、かつ、過去の音声信号を使用することによりコンテキスト検出を行ってキーワードを生成する段階を含む。
オプションで、方法は更に、動的目標言語モデルを呼び出して第2意図およびサービス内容を決定する段階の後、第2意図を確認して、確認された第2意図を取得する段階を含む。
オプションで、第2意図を確認して、確認された第2意図を取得する段階は、ユーザに第2意図の確認情報を送信し、ユーザによりフィードバックされる第2意図を取得し、かつ、ユーザによりフィードバックされる第2意図を、確認された第2意図として使用する段階を含む。
オプションで、第1意図の返答情報に基づき動的目標言語モデルを取得または生成する段階は、第1意図の返答情報を参照形式に変換して参照形式の返答情報を取得し、かつ、参照形式の返答情報に基づき動的目標言語モデルを取得または生成する段階を含む。
オプションで、参照形式の返答情報に基づき動的目標言語モデルを取得または生成する段階は、訓練された言語モデルを重み付き有限状態トランスデューサに変換し、かつ、重み付き有限状態トランスデューサを動的目標言語モデルとして使用する段階であって、訓練された言語モデルは、参照形式の返答情報と参照語彙とを訓練することにより取得される、段階を含む。
オプションで、参照形式の返答情報に基づき動的目標言語モデルを取得または生成する段階は、訓練された言語モデルを重み付き有限状態トランスデューサに変換し、かつ、重み付き有限状態トランスデューサを第1言語モデルとして使用する段階であって、訓練された言語モデルは、参照形式の返答情報を訓練することにより取得され、返答情報の長さは基準長以上である、段階と、参照形式の返答情報に基づき第2言語モデルを取得することであって、返答情報の長さは基準長より短い、取得することと、参照語彙に基づき第3言語モデルを取得することとを行う段階と、第1言語モデルと、第2言語モデルと、第3言語モデルとを組み合わせて総合言語モデルを取得し、かつ、総合言語モデルを動的目標言語モデルとして使用する段階とを含む。
オプションで、参照形式の返答情報に基づき動的目標言語モデルを取得または生成する段階は、参照形式の返答情報に基づき単語コンフュージョンネットワークを取得する段階であって、返答情報の長さは基準長以上であり、単語コンフュージョンネットワーク内の各語彙は遷移確率を有する、段階と、各語彙のペナルティ重みを算出し、各語彙のペナルティ重みに基づき単語コンフュージョンネットワークを重み付き有限状態トランスデューサに変換し、かつ、重み付き有限状態トランスデューサを第1言語モデルとして使用する段階と、参照形式の返答情報に基づき第2言語モデルを取得することであって、返答情報の長さは基準長より短い、取得することと、参照語彙に基づき第3言語モデルを取得することとを行う段階と、第1言語モデルと、第2言語モデルと、第3言語モデルとを組み合わせて総合言語モデルを取得し、かつ、総合言語モデルを動的目標言語モデルとして使用する段階とを含む。
オプションで、各語彙のペナルティ重みを算出する段階は、任意の語彙について、語彙の遷移確率の負対数値をペナルティ重みとして使用する段階を含む。
オプションで、各語彙のペナルティ重みを算出する段階は、任意の語彙について、語彙を含む参照形式の返答情報の数の対数値をペナルティ重みとして使用する段階を含む。
オプションで、各語彙のペナルティ重みを算出する段階は、任意の語彙について、参照形式の返答情報における語彙の出現回数の対数値をペナルティ重みとして使用する段階を含む。
本願のある実施形態は更にコンピュータ可読記憶媒体を提供する。この記憶媒体は少なくとも1つの命令を記憶する。プロセッサで命令をロードおよび実行して、本願の本実施形態で提供する音声認識方法を実装する。方法は、第1意図の返答情報に基づき動的目標言語モデルを取得または生成する段階であって、動的目標言語モデルは前端部分およびコア部分を含み、コア部分は、返答情報に関連する想定可能な説明を決定するように構成され、前端部分は、返答情報の確証的情報の説明を決定するように構成される、段階と、音声信号を取得し、かつ、音声信号を解析してキーワードを生成する段階と、動的目標言語モデルを呼び出して第2意図およびサービス内容を決定する段階であって、動的目標言語モデルの前端部分は、キーワードに基づき第2意図を解析し、動的目標言語モデルのコア部分は、キーワードに基づきサービス内容を解析する、段階とを含む。
オプションで、動的目標言語モデルは更に後端部分を含み、後端部分は、更なる意図が存在するかどうかを判断するように構成される。方法は更に、動的目標言語モデルを呼び出して更なる意図を決定し、かつ、動的目標言語モデルの後端部分を使用することによりキーワードに基づき更なる意図を解析する段階を含む。
オプションで、後端部分は後端指示語を含む。動的目標言語モデルを呼び出して更なる意図を決定し、かつ、動的目標言語モデルの後端部分を使用することによりキーワードに基づき更なる意図を解析する段階は、後端部分を使用することによりキーワードに基づき、参照後端指示語と参照後端指示語が位置する時点とを解析する段階と、第1意図および第2意図を参照して参照後端指示語に基づき動的目標言語モデルを更新して、更新された目標言語モデルを取得する段階と、更新された目標言語モデルを呼び出して、キーワードと参照後端指示語が位置する時点とに基づき更なる意図を解析する段階とを含む。
オプションで、音声信号を取得する段階の前に、方法は更に、過去の音声信号をバッファリングする段階を含み、音声信号を解析してキーワードを生成する段階は、音声信号を解析し、かつ、過去の音声信号を使用することによりコンテキスト検出を行ってキーワードを生成する段階を含む。
オプションで、方法は更に、動的目標言語モデルを呼び出して第2意図およびサービス内容を決定する段階の後、第2意図を確認して、確認された第2意図を取得する段階を含む。
オプションで、第2意図を確認して、確認された第2意図を取得する段階は、ユーザに第2意図の確認情報を送信し、ユーザによりフィードバックされる第2意図を取得し、かつ、ユーザによりフィードバックされる第2意図を、確認された第2意図として使用する段階を含む。
オプションで、第1意図の返答情報に基づき動的目標言語モデルを取得または生成する段階は、第1意図の返答情報を参照形式に変換して参照形式の返答情報を取得し、かつ、参照形式の返答情報に基づき目標言語モデルを取得または生成する段階を含む。
オプションで、参照形式の返答情報に基づき動的目標言語モデルを取得または生成する段階は、訓練された言語モデルを重み付き有限状態トランスデューサに変換し、かつ、重み付き有限状態トランスデューサを動的目標言語モデルとして使用する段階であって、訓練された言語モデルは、参照形式の返答情報と参照語彙とを訓練することにより取得される、段階を含む。
オプションで、参照形式の返答情報に基づき動的目標言語モデルを取得または生成する段階は、訓練された言語モデルを重み付き有限状態トランスデューサに変換し、かつ、重み付き有限状態トランスデューサを第1言語モデルとして使用する段階であって、訓練された言語モデルは、参照形式の返答情報を訓練することにより取得され、返答情報の長さは基準長以上である、段階と、参照形式の返答情報に基づき第2言語モデルを取得することであって、返答情報の長さは基準長より短い、取得することと、参照語彙に基づき第3言語モデルを取得することとを行う段階と、第1言語モデルと、第2言語モデルと、第3言語モデルとを組み合わせて総合言語モデルを取得し、かつ、総合言語モデルを動的目標言語モデルとして使用する段階とを含む。
オプションで、参照形式の返答情報に基づき動的目標言語モデルを取得または生成する段階は、参照形式の返答情報に基づき単語コンフュージョンネットワークを取得する段階であって、返答情報の長さは基準長以上であり、単語コンフュージョンネットワーク内の各語彙は遷移確率を有する、段階と、各語彙のペナルティ重みを算出し、各語彙のペナルティ重みに基づき単語コンフュージョンネットワークを重み付き有限状態トランスデューサに変換し、かつ、重み付き有限状態トランスデューサを第1言語モデルとして使用する段階と、参照形式の返答情報に基づき第2言語モデルを取得することであって、返答情報の長さは基準長より短い、取得することと、参照語彙に基づき第3言語モデルを取得することとを行う段階と、第1言語モデルと、第2言語モデルと、第3言語モデルとを組み合わせて総合言語モデルを取得し、かつ、総合言語モデルを動的目標言語モデルとして使用する段階とを含む。
オプションで、各語彙のペナルティ重みを算出する段階は、任意の語彙について、語彙の遷移確率の負対数値をペナルティ重みとして使用する段階を含む。
オプションで、各語彙のペナルティ重みを算出する段階は、任意の語彙について、語彙を含む参照形式の返答情報の数の対数値をペナルティ重みとして使用する段階を含む。
オプションで、各語彙のペナルティ重みを算出する段階は、任意の語彙について、参照形式の返答情報における語彙の出現回数の対数値をペナルティ重みとして使用する段階を含む。
本願のある実施形態は更にチップを提供する。このチップはプロセッサを含む。プロセッサは、メモリに記憶されている命令を呼び出し実行して、チップがインストールされている通信デバイスに、上述の音声認識方法のいずれか1つを行わせるように構成される。
本願のある実施形態は更に別のチップを提供する。このチップは、入力インタフェース、出力インタフェース、プロセッサ、およびメモリを含む。入力インタフェース、出力インタフェース、プロセッサ、およびメモリは、内部接続パスを介して互いに接続される。プロセッサは、メモリ内のコードを実行するように構成される。コードが実行されると、プロセッサは、上述の音声認識方法のいずれか1つを行うように構成される。
オプションで、1つまたは複数のプロセッサがあり、1つまたは複数のメモリがある。
オプションで、メモリがプロセッサと統合されてもよいし、メモリおよびプロセッサが別個に配置されてもよい。
特定の実装プロセスでは、メモリおよびプロセッサが1つのチップに統合されてもよいし、異なるチップに配置されてもよい。本願の本実施形態では、メモリの種類とメモリおよびプロセッサの配置方式とについて限定しない。
プロセッサは、中央処理装置(central processing unit、CPU)であってもよいし、別の汎用プロセッサ、デジタル信号プロセッサ(digital signal processing、DSP)、特定用途向け集積回路(application-specific integrated circuit、ASIC)、フィールドプログラマブルゲートアレイ(field programmable gate array、FPGA)もしくは別のプログラマブルロジックデバイス、ディスクリートゲートデバイスもしくはトランジスタロジックデバイス、またはディスクリートハードウェアコンポーネントなどであってもよいことを理解されたい。汎用プロセッサは、マイクロプロセッサまたは任意の従来のプロセッサなどであってよい。なお、プロセッサは、高度縮小命令セットコンピューティングマシン(advanced RISC machines、ARM)アーキテクチャをサポートするプロセッサであってよい。
更に、オプションの実施形態では、上述のメモリは、リードオンリメモリおよびランダムアクセスメモリを含み、プロセッサに対して命令およびデータを提供してよい。メモリは更に不揮発性ランダムアクセスメモリを含んでよい。例えば、メモリは更にデバイスタイプの情報を記憶してよい。
メモリは揮発性メモリまたは不揮発性メモリであってもよいし、揮発性メモリおよび不揮発性メモリを含んでもよい。不揮発性メモリは、リードオンリメモリ(read-only memory、ROM)、プログラマブルリードオンリメモリ(programmable ROM、PROM)、消去可能プログラマブルリードオンリメモリ(erasable PROM、EPROM)、電気的消去可能プログラマブルリードオンリメモリ(electrically EPROM、EEPROM)、またはフラッシュメモリであってよい。揮発性メモリは、外部キャッシュとして使用されるランダムアクセスメモリ(random access memory、RAM)であってよい。例えば、以下に限定されるわけではないが、多くの形態のRAMを利用できる。例えば、スタティックランダムアクセスメモリ(static RAM、SRAM)、ダイナミックランダムアクセスメモリ(dynamic random access memory、DRAM)、シンクロナスダイナミックランダムアクセスメモリ(synchronous DRAM、SDRAM)、ダブルデータレートシンクロナスダイナミックランダムアクセスメモリ(double data rate SDRAM、DDR SDRAM)、高速シンクロナスダイナミックランダムアクセスメモリ(enhanced SDRAM、ESDRAM)、シンクリンクダイナミックランダムアクセスメモリ(synchlink DRAM、SLDRAM)、およびダイレクトラムバスランダムアクセスメモリ(direct rambus RAM、DR RAM)である。
本願のある実施形態はコンピュータプログラムを提供する。コンピュータによりコンピュータプログラムが実行されると、上述の方法の実施形態における対応する段階および/または手順をプロセッサまたはコンピュータに行わせることができる場合がある。
ソフトウェア、ハードウェア、ファームウェア、またはそれらの任意の組み合わせを使用することにより、上述の実施形態の全てまたは幾つかが実装されてよい。これらの実施形態を実装するためにソフトウェアが使用される場合は、当該実施形態は、コンピュータプログラム製品の形態で完全にまたは部分的に実装されてよい。コンピュータプログラム製品は、1つまたは複数のコンピュータ命令を含む。コンピュータ上でコンピュータプログラム命令がロードおよび実行されると、本願に係る手順または機能が全てまたは部分的に生成される。コンピュータは、汎用コンピュータ、専用コンピュータ、コンピュータネットワーク、または他のプログラマブル装置であってよい。コンピュータ命令はコンピュータ可読記憶媒体に記憶されてもよいし、あるコンピュータ可読記憶媒体から別のコンピュータ可読記憶媒体に伝送されてもよい。例えば、コンピュータ命令は、あるウェブサイト、コンピュータ、サーバ、またはデータセンタから別のウェブサイト、コンピュータ、サーバ、またはデータセンタへ有線(例えば、同軸ケーブル、光ファイバ、またはデジタル加入者回線)または無線(例えば、赤外線、電波、またはマイクロ波)の方式で伝送されてよい。コンピュータ可読記憶媒体は、コンピュータがアクセスできる任意の使用可能な媒体、または、1つまたは複数の使用可能な媒体を統合した、サーバまたはデータセンタなどのデータ記憶デバイスであってよい。使用可能な媒体は、磁気媒体(例えば、フロッピディスク、ハードディスク、または磁気テープ)、光媒体(例えば、DVD)、または半導体媒質(例えば、ソリッドステートディスク(solid state disk))などであってよい。
上述の説明は本願の実施形態に過ぎないが、本願を限定することを意図するものではない。本願の趣旨および原理から逸脱することなく行われる修正、同等の置換、または改良はいずれも、本願の保護範囲に含まれるべきである。
[他の考えられる項目]
(項目1)
音声認識方法であって、
第1意図の返答情報に基づき動的目標言語モデルを取得または生成する段階であって、上記動的目標言語モデルは前端部分およびコア部分を含み、上記コア部分は、上記返答情報に関連する想定可能な説明を決定するように構成され、上記前端部分は、上記返答情報の確証的情報の説明を決定するように構成される、段階と、
音声信号を取得し、かつ、上記音声信号を解析してキーワードを生成する段階と、
上記動的目標言語モデルを呼び出して第2意図およびサービス内容を決定する段階であって、上記動的目標言語モデルの上記前端部分は、上記キーワードに基づき上記第2意図を解析し、上記動的目標言語モデルの上記コア部分は、上記キーワードに基づき上記サービス内容を解析する、段階と
を備える方法。
(項目2)
上記動的目標言語モデルは更に、後端部分を含み、上記後端部分は、更なる意図が存在するかどうかを判断するように構成され、上記方法は更に、
上記動的目標言語モデルを呼び出して更なる意図を決定し、かつ、上記動的目標言語モデルの上記後端部分を使用することにより上記キーワードに基づき上記更なる意図を解析する段階
を備える、項目1に記載の方法。
(項目3)
上記後端部分は後端指示語を含み、
上記動的目標言語モデルを呼び出して更なる意図を決定し、かつ、上記動的目標言語モデルの上記後端部分を使用することにより上記キーワードに基づき上記更なる意図を解析する上記段階は、
上記後端部分を使用することにより上記キーワードに基づき、参照後端指示語と上記参照後端指示語が位置する時点とを解析する段階と、
上記第1意図および上記第2意図を参照して上記参照後端指示語に基づき上記動的目標言語モデルを更新して、更新された目標言語モデルを取得する段階と、
上記更新された目標言語モデルを呼び出して、上記キーワードと上記参照後端指示語が位置する上記時点とに基づき上記更なる意図を解析する段階と
を有する、
項目2に記載の方法。
(項目4)
音声信号を取得する上記段階の前に、上記方法は更に、
過去の音声信号をバッファリングする段階
を備え、
上記音声信号を解析してキーワードを生成する上記段階は、
上記音声信号を解析し、かつ、上記過去の音声信号を使用することによりコンテキスト検出を行って上記キーワードを生成する段階
を有する、
項目1から3のいずれか一項に記載の方法。
(項目5)
第1意図の返答情報に基づき動的目標言語モデルを取得または生成する上記段階は、
上記第1意図の上記返答情報を参照形式に変換して上記参照形式の返答情報を取得し、かつ、上記参照形式の上記返答情報に基づき上記動的目標言語モデルを取得または生成する段階
を有する、項目1から4のいずれか一項に記載の方法。
(項目6)
上記参照形式の上記返答情報に基づき上記動的目標言語モデルを取得または生成する上記段階は、
訓練された言語モデルを重み付き有限状態トランスデューサに変換し、かつ、上記重み付き有限状態トランスデューサを上記動的目標言語モデルとして使用する段階であって、上記訓練された言語モデルは、上記参照形式の上記返答情報と参照語彙とを訓練することにより取得される、段階
を含む、項目5に記載の方法。
(項目7)
上記参照形式の上記返答情報に基づき上記動的目標言語モデルを取得または生成する上記段階は、
訓練された言語モデルを重み付き有限状態トランスデューサに変換し、かつ、上記重み付き有限状態トランスデューサを第1言語モデルとして使用する段階であって、上記訓練された言語モデルは、上記参照形式の返答情報を訓練することにより取得され、上記返答情報の上記長さは基準長以上である、段階と、
上記参照形式の返答情報に基づき第2言語モデルを取得することであって、上記返答情報の上記長さは上記基準長より短い、取得することと、参照語彙に基づき第3言語モデルを取得することとを行う段階と、
上記第1言語モデルと、上記第2言語モデルと、上記第3言語モデルとを組み合わせて総合言語モデルを取得し、かつ、上記総合言語モデルを上記動的目標言語モデルとして使用する段階と
を含む、項目5に記載の方法。
(項目8)
上記参照形式の上記返答情報に基づき上記動的目標言語モデルを取得または生成する上記段階は、
上記参照形式の返答情報に基づき単語コンフュージョンネットワークを取得する段階であって、上記返答情報の上記長さは基準長以上であり、上記単語コンフュージョンネットワーク内の各語彙は遷移確率を有する、段階と、
各語彙のペナルティ重みを算出し、各語彙の上記ペナルティ重みに基づき上記単語コンフュージョンネットワークを重み付き有限状態トランスデューサに変換し、かつ、上記重み付き有限状態トランスデューサを第1言語モデルとして使用する段階と、
上記参照形式の返答情報に基づき第2言語モデルを取得することであって、上記返答情報の上記長さは上記基準長より短い、取得することと、参照語彙に基づき第3言語モデルを取得することとを行う段階と、
上記第1言語モデルと、上記第2言語モデルと、上記第3言語モデルとを組み合わせて総合言語モデルを取得し、かつ、上記総合言語モデルを上記動的目標言語モデルとして使用する段階と
を含む、項目5に記載の方法。
(項目9)
各語彙のペナルティ重みを算出する上記段階は、
任意の語彙について、上記語彙の遷移確率の負対数値を上記ペナルティ重みとして使用する段階
を含む、項目8に記載の方法。
(項目10)
各語彙のペナルティ重みを算出する上記段階は、
任意の語彙について、上記語彙を含む上記参照形式の返答情報の数の対数値を上記ペナルティ重みとして使用する段階
を含む、項目8に記載の方法。
(項目11)
各語彙のペナルティ重みを算出する上記段階は、
任意の語彙について、上記参照形式の上記返答情報における上記語彙の出現回数の対数値を上記ペナルティ重みとして使用する段階
を含む、項目8に記載の方法。
(項目12)
音声認識装置であって、
第1意図の返答情報に基づき動的目標言語モデルを取得または生成するように構成される第1取得モジュールであって、上記動的目標言語モデルは前端部分およびコア部分を含み、上記コア部分は、上記返答情報に関連する想定可能な説明を決定するように構成され、上記前端部分は、上記返答情報の確証的情報の説明を決定するように構成される、第1取得モジュールと、
音声信号を取得し、かつ、上記音声信号を解析してキーワードを生成するように構成される第2取得モジュールと、
上記動的目標言語モデルを呼び出して第2意図およびサービス内容を決定するように構成される第1決定モジュールであって、上記動的目標言語モデルの上記前端部分は、上記キーワードに基づき上記第2意図を解析し、上記動的目標言語モデルの上記コア部分は、上記キーワードに基づき上記サービス内容を解析する、第1決定モジュールと
を備える装置。
(項目13)
上記動的目標言語モデルは更に、後端部分を含み、上記後端部分は、更なる意図が存在するかどうかを判断するように構成され、上記装置は更に、
上記動的目標言語モデルを呼び出して更なる意図を決定するように構成される第2決定モジュールであって、上記動的目標言語モデルの上記後端部分は、上記キーワードに基づき上記更なる意図を解析する、第2決定モジュール
を備える、項目12に記載の装置。
(項目14)
上記後端部分は後端指示語を含み、
上記第2決定モジュールは、上記後端部分を使用することにより上記キーワードに基づき、参照後端指示語と上記参照後端指示語が位置する時点とを解析することと、上記第1意図および上記第2意図を参照して上記参照後端指示語に基づき上記動的目標言語モデルを更新して、更新された目標言語モデルを取得することと、上記更新された目標言語モデルを呼び出して、上記キーワードと上記参照後端指示語が位置する上記時点とに基づき上記更なる意図を解析することとを行うように構成される、
項目13に記載の装置。
(項目15)
上記装置は更に、
過去の音声信号をバッファリングするように構成されるバッファモジュール
を備え、
上記第2取得モジュールは、上記音声信号を解析し、かつ、上記過去の音声信号を使用することによりコンテキスト検出を行って上記キーワードを生成するように構成される、
項目12から14のいずれか一項に記載の装置。
(項目16)
上記第1取得モジュールは、上記第1意図の上記返答情報を参照形式に変換して上記参照形式の返答情報を取得し、かつ、上記参照形式の上記返答情報に基づき上記動的目標言語モデルを取得または生成するように構成される、項目12から15のいずれか一項に記載の装置。
(項目17)
上記第1取得モジュールは、訓練された言語モデルを重み付き有限状態トランスデューサに変換し、かつ、上記重み付き有限状態トランスデューサを上記動的目標言語モデルとして使用することであって、上記訓練された言語モデルは、上記参照形式の上記返答情報と参照語彙とを訓練することにより取得される、使用することを行うように構成される、項目16に記載の装置。
(項目18)
上記第1取得モジュールは、
訓練された言語モデルを重み付き有限状態トランスデューサに変換し、かつ、上記重み付き有限状態トランスデューサを第1言語モデルとして使用することであって、上記訓練された言語モデルは、上記参照形式の返答情報を訓練することにより取得され、上記返答情報の上記長さは基準長以上である、使用することと、
上記参照形式の返答情報に基づき第2言語モデルを取得することであって、上記返答情報の上記長さは上記基準長より短い、取得することと、参照語彙に基づき第3言語モデルを取得することとを行うことと、
上記第1言語モデルと、上記第2言語モデルと、上記第3言語モデルとを組み合わせて総合言語モデルを取得し、かつ、上記総合言語モデルを上記動的目標言語モデルとして使用することと
を行うように構成される、項目16に記載の装置。
(項目19)
上記第1取得モジュールは、
上記参照形式の返答情報に基づき単語コンフュージョンネットワークを取得するように構成される第1取得ユニットであって、上記返答情報の上記長さは基準長以上であり、上記単語コンフュージョンネットワーク内の各語彙は遷移確率を有する、第1取得ユニットと、
各語彙のペナルティ重みを算出し、各語彙の上記ペナルティ重みに基づき上記単語コンフュージョンネットワークを重み付き有限状態トランスデューサに変換し、かつ、上記重み付き有限状態トランスデューサを第1言語モデルとして使用するように構成される算出ユニットと、
上記参照形式の返答情報に基づき第2言語モデルを取得することであって、上記返答情報の上記長さは上記基準長より短い、取得することと、参照語彙に基づき第3言語モデルを取得することとを行うように構成される第2取得ユニットと、
上記第1言語モデルと、上記第2言語モデルと、上記第3言語モデルとを組み合わせて総合言語モデルを取得し、かつ、上記総合言語モデルを上記動的目標言語モデルとして使用するように構成される組み合わせユニットと
を有する、項目16に記載の装置。
(項目20)
上記算出ユニットは、任意の語彙について、上記語彙の遷移確率の負対数値を上記ペナルティ重みとして使用するように構成される、項目19に記載の装置。
(項目21)
上記算出ユニットは、任意の語彙について、上記語彙を含む上記参照形式の返答情報の数の対数値を上記ペナルティ重みとして使用するように構成される、項目19に記載の装置。
(項目22)
上記算出ユニットは、任意の語彙について、上記参照形式の上記返答情報における上記語彙の出現回数の対数値を上記ペナルティ重みとして使用するように構成される、項目19に記載の装置。
(項目23)
メモリとプロセッサとを備える音声認識デバイスであって、上記メモリは少なくとも1つの命令を記憶し、上記少なくとも1つの命令は、音声認識方法を実装するために上記プロセッサによりロードおよび実行され、上記方法は、
第1意図の返答情報に基づき動的目標言語モデルを取得または生成する段階であって、上記動的目標言語モデルは前端部分およびコア部分を含み、上記コア部分は、上記返答情報に関連する想定可能な説明を決定するように構成され、上記前端部分は、上記返答情報の確証的情報の説明を決定するように構成される、段階と、
音声信号を取得し、かつ、上記音声信号を解析してキーワードを生成する段階と、
上記動的目標言語モデルを呼び出して第2意図およびサービス内容を決定する段階であって、上記動的目標言語モデルの上記前端部分は、上記キーワードに基づき上記第2意図を解析し、上記動的目標言語モデルの上記コア部分は、上記キーワードに基づき上記サービス内容を解析する、段階と
を含む、デバイス。
(項目24)
上記動的目標言語モデルは更に、後端部分を含み、上記後端部分は、更なる意図が存在するかどうかを判断するように構成され、上記方法は更に、
上記動的目標言語モデルを呼び出して更なる意図を決定し、かつ、上記動的目標言語モデルの上記後端部分を使用することにより上記キーワードに基づき上記更なる意図を解析する段階
を含む、項目23に記載の音声認識デバイス。
(項目25)
上記後端部分は後端指示語を含み、
上記動的目標言語モデルを呼び出して更なる意図を決定し、かつ、上記動的目標言語モデルの上記後端部分を使用することにより上記キーワードに基づき上記更なる意図を解析する上記段階は、
上記後端部分を使用することにより上記キーワードに基づき、参照後端指示語と上記参照後端指示語が位置する時点とを解析する段階と、
上記第1意図および上記第2意図を参照して上記参照後端指示語に基づき上記動的目標言語モデルを更新して、更新された目標言語モデルを取得する段階と、
上記更新された目標言語モデルを呼び出して、上記キーワードと上記参照後端指示語が位置する上記時点とに基づき上記更なる意図を解析する段階と
を含む、
項目24に記載の音声認識デバイス。
(項目26)
音声信号を取得する上記段階の前に、上記方法は更に、
過去の音声信号をバッファリングする段階
を含み、
上記音声信号を解析してキーワードを生成する上記段階は、
上記音声信号を解析し、かつ、上記過去の音声信号を使用することによりコンテキスト検出を行って上記キーワードを生成する段階
を含む、
項目23から25のいずれか一項に記載の音声認識デバイス。
(項目27)
第1意図の返答情報に基づき動的目標言語モデルを取得または生成する上記段階は、
上記第1意図の上記返答情報を参照形式に変換して上記参照形式の返答情報を取得し、かつ、上記参照形式の上記返答情報に基づき上記動的目標言語モデルを取得または生成する段階
を含む、項目23から26のいずれか一項に記載の音声認識デバイス。
(項目28)
上記参照形式の上記返答情報に基づき上記動的目標言語モデルを取得または生成する上記段階は、
訓練された言語モデルを重み付き有限状態トランスデューサに変換し、かつ、上記重み付き有限状態トランスデューサを上記動的目標言語モデルとして使用する段階であって、上記訓練された言語モデルは、上記参照形式の上記返答情報と参照語彙とを訓練することにより取得される、段階
を含む、項目27に記載の音声認識デバイス。
(項目29)
上記参照形式の上記返答情報に基づき上記動的目標言語モデルを取得または生成する上記段階は、
訓練された言語モデルを重み付き有限状態トランスデューサに変換し、かつ、上記重み付き有限状態トランスデューサを第1言語モデルとして使用する段階であって、上記訓練された言語モデルは、上記参照形式の返答情報を訓練することにより取得され、上記返答情報の上記長さは基準長以上である、段階と、
上記参照形式の返答情報に基づき第2言語モデルを取得することであって、上記返答情報の上記長さは上記基準長より短い、取得することと、参照語彙に基づき第3言語モデルを取得することとを行う段階と、
上記第1言語モデルと、上記第2言語モデルと、上記第3言語モデルとを組み合わせて総合言語モデルを取得し、かつ、上記総合言語モデルを上記動的目標言語モデルとして使用する段階と
を含む、項目27に記載の音声認識デバイス。
(項目30)
上記参照形式の上記返答情報に基づき上記動的目標言語モデルを取得または生成する上記段階は、
上記参照形式の返答情報に基づき単語コンフュージョンネットワークを取得する段階であって、上記返答情報の上記長さは基準長以上であり、上記単語コンフュージョンネットワーク内の各語彙は遷移確率を有する、段階と、
各語彙のペナルティ重みを算出し、各語彙の上記ペナルティ重みに基づき上記単語コンフュージョンネットワークを重み付き有限状態トランスデューサに変換し、かつ、上記重み付き有限状態トランスデューサを第1言語モデルとして使用する段階と、
上記参照形式の返答情報に基づき第2言語モデルを取得することであって、上記返答情報の上記長さは上記基準長より短い、取得することと、参照語彙に基づき第3言語モデルを取得することとを行う段階と、
上記第1言語モデルと、上記第2言語モデルと、上記第3言語モデルとを組み合わせて総合言語モデルを取得し、かつ、上記総合言語モデルを上記動的目標言語モデルとして使用する段階と
を含む、項目27に記載の音声認識デバイス。
(項目31)
各語彙のペナルティ重みを算出する上記段階は、
任意の語彙について、上記語彙の遷移確率の負対数値を上記ペナルティ重みとして使用する段階
を含む、項目30に記載の音声認識デバイス。
(項目32)
各語彙のペナルティ重みを算出する上記段階は、
任意の語彙について、上記語彙を含む上記参照形式の返答情報の数の対数値を上記ペナルティ重みとして使用する段階
を含む、項目30に記載の音声認識デバイス。
(項目33)
各語彙のペナルティ重みを算出する上記段階は、
任意の語彙について、上記参照形式の上記返答情報における上記語彙の出現回数の対数値を上記ペナルティ重みとして使用する段階
を含む、項目30に記載の音声認識デバイス。
(項目34)
コンピュータ可読記憶媒体であって、上記コンピュータ可読記憶媒体は少なくとも1つの命令を記憶し、上記命令は、音声認識方法を実装するためにプロセッサによりロードおよび実行され、上記方法は、
第1意図の返答情報に基づき動的目標言語モデルを取得または生成する段階であって、上記動的目標言語モデルは前端部分およびコア部分を含み、上記コア部分は、上記返答情報に関連する想定可能な説明を決定するように構成され、上記前端部分は、上記返答情報の確証的情報の説明を決定するように構成される、段階と、
音声信号を取得し、かつ、上記音声信号を解析してキーワードを生成する段階と、
上記動的目標言語モデルを呼び出して第2意図およびサービス内容を決定する段階であって、上記動的目標言語モデルの上記前端部分は、上記キーワードに基づき上記第2意図を解析し、上記動的目標言語モデルの上記コア部分は、上記キーワードに基づき上記サービス内容を解析する、段階と
を含む、コンピュータ可読記憶媒体。
(項目35)
上記動的目標言語モデルは更に、後端部分を含み、上記後端部分は、更なる意図が存在するかどうかを判断するように構成され、上記方法は更に、
上記動的目標言語モデルを呼び出して更なる意図を決定し、かつ、上記動的目標言語モデルの上記後端部分を使用することにより上記キーワードに基づき上記更なる意図を解析する段階
を含む、項目34に記載のコンピュータ可読記憶媒体。
(項目36)
上記後端部分は後端指示語を含み、
上記動的目標言語モデルを呼び出して更なる意図を決定し、かつ、上記動的目標言語モデルの上記後端部分を使用することにより上記キーワードに基づき上記更なる意図を解析する上記段階は、
上記後端部分を使用することにより上記キーワードに基づき、参照後端指示語と上記参照後端指示語が位置する時点とを解析する段階と、
上記第1意図および上記第2意図を参照して上記参照後端指示語に基づき上記動的目標言語モデルを更新して、更新された目標言語モデルを取得する段階と、
上記更新された目標言語モデルを呼び出して、上記キーワードと上記参照後端指示語が位置する上記時点とに基づき上記更なる意図を解析する段階と
を含む、
項目35に記載のコンピュータ可読記憶媒体。
(項目37)
音声信号を取得する上記段階の前に、上記方法は更に、
過去の音声信号をバッファリングする段階
を含み、
上記音声信号を解析してキーワードを生成する上記段階は、
上記音声信号を解析し、かつ、上記過去の音声信号を使用することによりコンテキスト検出を行って上記キーワードを生成する段階
を含む、
項目34から36のいずれか一項に記載のコンピュータ可読記憶媒体。
(項目38)
第1意図の返答情報に基づき動的目標言語モデルを取得または生成する上記段階は、
上記第1意図の上記返答情報を参照形式に変換して上記参照形式の返答情報を取得し、かつ、上記参照形式の上記返答情報に基づき上記動的目標言語モデルを取得または生成する段階
を含む、項目34から37のいずれか一項に記載のコンピュータ可読記憶媒体。
(項目39)
上記参照形式の上記返答情報に基づき上記動的目標言語モデルを取得または生成する上記段階は、
訓練された言語モデルを重み付き有限状態トランスデューサに変換し、かつ、上記重み付き有限状態トランスデューサを上記動的目標言語モデルとして使用する段階であって、上記訓練された言語モデルは、上記参照形式の上記返答情報と参照語彙とを訓練することにより取得される、段階
を含む、項目38に記載のコンピュータ可読記憶媒体。
(項目40)
上記参照形式の上記返答情報に基づき上記動的目標言語モデルを取得または生成する上記段階は、
訓練された言語モデルを重み付き有限状態トランスデューサに変換し、かつ、上記重み付き有限状態トランスデューサを第1言語モデルとして使用する段階であって、上記訓練された言語モデルは、上記参照形式の返答情報を訓練することにより取得され、上記返答情報の上記長さは基準長以上である、段階と、
上記参照形式の返答情報に基づき第2言語モデルを取得することであって、上記返答情報の上記長さは上記基準長より短い、取得することと、参照語彙に基づき第3言語モデルを取得することとを行う段階と、
上記第1言語モデルと、上記第2言語モデルと、上記第3言語モデルとを組み合わせて総合言語モデルを取得し、かつ、上記総合言語モデルを上記動的目標言語モデルとして使用する段階と
を含む、項目38に記載のコンピュータ可読記憶媒体。
(項目41)
上記参照形式の上記返答情報に基づき上記動的目標言語モデルを取得または生成する上記段階は、
上記参照形式の返答情報に基づき単語コンフュージョンネットワークを取得する段階であって、上記返答情報の上記長さは基準長以上であり、上記単語コンフュージョンネットワーク内の各語彙は遷移確率を有する、段階と、
各語彙のペナルティ重みを算出し、各語彙の上記ペナルティ重みに基づき上記単語コンフュージョンネットワークを重み付き有限状態トランスデューサに変換し、かつ、上記重み付き有限状態トランスデューサを第1言語モデルとして使用する段階と、
上記参照形式の返答情報に基づき第2言語モデルを取得することであって、上記返答情報の上記長さは上記基準長より短い、取得することと、参照語彙に基づき第3言語モデルを取得することとを行う段階と、
上記第1言語モデルと、上記第2言語モデルと、上記第3言語モデルとを組み合わせて総合言語モデルを取得し、かつ、上記総合言語モデルを上記動的目標言語モデルとして使用する段階と
を含む、項目38に記載のコンピュータ可読記憶媒体。
(項目42)
各語彙のペナルティ重みを算出する上記段階は、
任意の語彙について、上記語彙の遷移確率の負対数値を上記ペナルティ重みとして使用する段階
を含む、項目41に記載のコンピュータ可読記憶媒体。
(項目43)
各語彙のペナルティ重みを算出する上記段階は、
任意の語彙について、上記語彙を含む上記参照形式の返答情報の数の対数値を上記ペナルティ重みとして使用する段階
を含む、項目41に記載のコンピュータ可読記憶媒体。
(項目44)
各語彙のペナルティ重みを算出する上記段階は、
任意の語彙について、上記参照形式の上記返答情報における上記語彙の出現回数の対数値を上記ペナルティ重みとして使用する段階
を含む、項目41に記載のコンピュータ可読記憶媒体。

Claims (31)

  1. 音声認識方法であって、
    第1意図に対する返答情報に基づき動的目標言語モデルを取得または生成する段階であって、前記動的目標言語モデルは前端部分およびコア部分を含み、前記コア部分は、前記返答情報に関連する想定可能な表現を決定するように構成され、前記前端部分は、前記返答情報に対する確証的情報の表現を決定するように構成される、段階と、
    音声信号を取得し、かつ、前記音声信号を前記音声信号より前の過去の音声信号に基づき解析して前記第1意図に関連するキーワードを生成する段階と、
    前記動的目標言語モデルを呼び出して第2意図およびサービス内容を決定する段階であって、前記動的目標言語モデルの前記前端部分は、前記キーワードのうち第1キーワードに基づき前記第2意図を解析し、前記動的目標言語モデルの前記コア部分は、前記キーワードのうち第2キーワードに基づき前記サービス内容を解析する、段階と
    を備える方法。
  2. 前記動的目標言語モデルは更に、後端部分を含み、前記後端部分は、更なる意図が存在するかどうかを判断するように構成され、前記方法は更に、
    前記動的目標言語モデルを呼び出して更なる意図を決定し、かつ、前記動的目標言語モデルの前記後端部分を使用することにより第3キーワードに基づき前記更なる意図を解析する段階
    を備える、請求項1に記載の方法。
  3. 音声認識方法であって、
    第1意図に対する返答情報に基づき動的目標言語モデルを取得または生成する段階であって、前記動的目標言語モデルは前端部分およびコア部分を含み、前記コア部分は、前記返答情報に関連する想定可能な表現を決定するように構成され、前記前端部分は、前記返答情報に対する確証的情報の表現を決定するように構成される、段階と、
    音声信号を取得し、かつ、前記音声信号を解析してキーワードを生成する段階と、
    前記動的目標言語モデルを呼び出して第2意図およびサービス内容を決定する段階であって、前記動的目標言語モデルの前記前端部分は、前記キーワードのうち第1キーワードに基づき前記第2意図を解析し、前記動的目標言語モデルの前記コア部分は、前記キーワードのうち第2キーワードに基づき前記サービス内容を解析する、段階と
    を備え、
    前記動的目標言語モデルは更に、後端部分を含み、前記後端部分は、更なる意図が存在するかどうかを判断するように構成され、前記方法は更に、
    前記動的目標言語モデルを呼び出して更なる意図を決定し、かつ、前記動的目標言語モデルの前記後端部分を使用することにより第3キーワードに基づき前記更なる意図を解析する段階
    を備える方法。
  4. 前記後端部分は後端指示語を含み、
    前記動的目標言語モデルを呼び出して更なる意図を決定し、かつ、前記動的目標言語モデルの前記後端部分を使用することにより第3キーワードに基づき前記更なる意図を解析する前記段階は、
    前記後端部分を使用することにより前記第3キーワードに基づき、参照後端指示語と前記参照後端指示語が位置する時点とを解析する段階と、
    前記第1意図および前記第2意図を参照して前記参照後端指示語に基づき前記動的目標言語モデルを更新して、更新された目標言語モデルを取得する段階と、
    前記更新された目標言語モデルを呼び出して、前記第3キーワードと前記参照後端指示語が位置する前記時点とに基づき前記更なる意図を解析する段階と
    を有する、
    請求項2または3に記載の方法。
  5. 音声信号を取得する前記段階の前に、前記方法は更に、
    過去の音声信号をバッファリングする段階
    を備え、
    前記音声信号を前記音声信号より前の過去の音声信号に基づき解析して前記第1意図に関連するキーワードを生成する前記段階は、
    前記音声信号を解析し、かつ、前記過去の音声信号を使用することによりコンテキスト検出を行って前記第1意図に関連する前記キーワードを生成する段階
    を有する、
    請求項1からのいずれか一項に記載の方法。
  6. 第1意図に対する返答情報に基づき動的目標言語モデルを取得または生成する前記段階は、
    前記第1意図に対する前記返答情報を参照形式の前記返答情報に変換し、かつ、前記参照形式の前記返答情報に基づき前記動的目標言語モデルを取得または生成する段階
    を有する、請求項1からのいずれか一項に記載の方法。
  7. 前記参照形式の前記返答情報に基づき前記動的目標言語モデルを取得または生成する前記段階は、
    訓練された言語モデルを重み付き有限状態トランスデューサに変換し、かつ、前記重み付き有限状態トランスデューサを前記動的目標言語モデルとして使用する段階であって、前記訓練された言語モデルは、前記参照形式の前記返答情報と参照語彙とを訓練することにより取得される、段階
    を含む、請求項に記載の方法。
  8. 前記参照形式の前記返答情報に基づき前記動的目標言語モデルを取得または生成する前記段階は、
    訓練された言語モデルを重み付き有限状態トランスデューサに変換し、かつ、前記重み付き有限状態トランスデューサを第1言語モデルとして使用する段階であって、前記訓練された言語モデルは、前記参照形式の返答情報を訓練することにより取得され、前記返答情報の長さは基準長以上である、段階と、
    前記参照形式の返答情報に基づき第2言語モデルを取得することであって、前記返答情報の前記長さは前記基準長より短い、取得することと、参照語彙に基づき第3言語モデルを取得することとを行う段階と、
    前記第1言語モデルと、前記第2言語モデルと、前記第3言語モデルとを組み合わせて総合言語モデルを取得し、かつ、前記総合言語モデルを前記動的目標言語モデルとして使用する段階と
    を含む、請求項に記載の方法。
  9. 音声認識方法であって、
    第1意図に対する返答情報に基づき動的目標言語モデルを取得または生成する段階であって、前記動的目標言語モデルは前端部分およびコア部分を含み、前記コア部分は、前記返答情報に関連する想定可能な表現を決定するように構成され、前記前端部分は、前記返答情報に対する確証的情報の表現を決定するように構成される、段階と、
    音声信号を取得し、かつ、前記音声信号を解析してキーワードを生成する段階と、
    前記動的目標言語モデルを呼び出して第2意図およびサービス内容を決定する段階であって、前記動的目標言語モデルの前記前端部分は、前記キーワードのうち第1キーワードに基づき前記第2意図を解析し、前記動的目標言語モデルの前記コア部分は、前記キーワードのうち第2キーワードに基づき前記サービス内容を解析する、段階と
    を備え、
    第1意図に対する返答情報に基づき動的目標言語モデルを取得または生成する前記段階は、
    前記第1意図に対する前記返答情報を参照形式の前記返答情報に変換し、かつ、前記参照形式の前記返答情報に基づき前記動的目標言語モデルを取得または生成する段階
    を有し、
    前記参照形式の前記返答情報に基づき前記動的目標言語モデルを取得または生成する前記段階は、
    訓練された言語モデルを重み付き有限状態トランスデューサに変換し、かつ、前記重み付き有限状態トランスデューサを第1言語モデルとして使用する段階であって、前記訓練された言語モデルは、前記参照形式の返答情報を訓練することにより取得され、前記返答情報の長さは基準長以上である、段階と、
    前記参照形式の返答情報に基づき第2言語モデルを取得することであって、前記返答情報の前記長さは前記基準長より短い、取得することと、参照語彙に基づき第3言語モデルを取得することとを行う段階と、
    前記第1言語モデルと、前記第2言語モデルと、前記第3言語モデルとを組み合わせて総合言語モデルを取得し、かつ、前記総合言語モデルを前記動的目標言語モデルとして使用する段階と
    を含む、方法。
  10. 前記参照形式の前記返答情報に基づき前記動的目標言語モデルを取得または生成する前記段階は、
    前記参照形式の返答情報に基づき単語コンフュージョンネットワークを取得する段階であって、前記返答情報の長さは基準長以上であり、前記単語コンフュージョンネットワーク内の各語彙は遷移確率を有する、段階と、
    各語彙のペナルティ重みを算出し、各語彙の前記ペナルティ重みに基づき前記単語コンフュージョンネットワークを重み付き有限状態トランスデューサに変換し、かつ、前記重み付き有限状態トランスデューサを第1言語モデルとして使用する段階と、
    前記参照形式の返答情報に基づき第2言語モデルを取得することであって、前記返答情報の前記長さは前記基準長より短い、取得することと、参照語彙に基づき第3言語モデルを取得することとを行う段階と、
    前記第1言語モデルと、前記第2言語モデルと、前記第3言語モデルとを組み合わせて総合言語モデルを取得し、かつ、前記総合言語モデルを前記動的目標言語モデルとして使用する段階と
    を含む、請求項に記載の方法。
  11. 音声認識方法であって、
    第1意図に対する返答情報に基づき動的目標言語モデルを取得または生成する段階であって、前記動的目標言語モデルは前端部分およびコア部分を含み、前記コア部分は、前記返答情報に関連する想定可能な表現を決定するように構成され、前記前端部分は、前記返答情報に対する確証的情報の表現を決定するように構成される、段階と、
    音声信号を取得し、かつ、前記音声信号を解析してキーワードを生成する段階と、
    前記動的目標言語モデルを呼び出して第2意図およびサービス内容を決定する段階であって、前記動的目標言語モデルの前記前端部分は、前記キーワードのうち第1キーワードに基づき前記第2意図を解析し、前記動的目標言語モデルの前記コア部分は、前記キーワードのうち第2キーワードに基づき前記サービス内容を解析する、段階と
    を備え、
    第1意図に対する返答情報に基づき動的目標言語モデルを取得または生成する前記段階は、
    前記第1意図に対する前記返答情報を参照形式の前記返答情報に変換し、かつ、前記参照形式の前記返答情報に基づき前記動的目標言語モデルを取得または生成する段階
    を有し、
    前記参照形式の前記返答情報に基づき前記動的目標言語モデルを取得または生成する前記段階は、
    前記参照形式の返答情報に基づき単語コンフュージョンネットワークを取得する段階であって、前記返答情報の長さは基準長以上であり、前記単語コンフュージョンネットワーク内の各語彙は遷移確率を有する、段階と、
    各語彙のペナルティ重みを算出し、各語彙の前記ペナルティ重みに基づき前記単語コンフュージョンネットワークを重み付き有限状態トランスデューサに変換し、かつ、前記重み付き有限状態トランスデューサを第1言語モデルとして使用する段階と、
    前記参照形式の返答情報に基づき第2言語モデルを取得することであって、前記返答情報の前記長さは前記基準長より短い、取得することと、参照語彙に基づき第3言語モデルを取得することとを行う段階と、
    前記第1言語モデルと、前記第2言語モデルと、前記第3言語モデルとを組み合わせて総合言語モデルを取得し、かつ、前記総合言語モデルを前記動的目標言語モデルとして使用する段階と
    を含む、方法。
  12. 各語彙のペナルティ重みを算出する前記段階は、
    任意の語彙について、前記語彙の遷移確率の負対数値を前記ペナルティ重みとして使用する段階
    を含む、請求項10または11に記載の方法。
  13. 各語彙のペナルティ重みを算出する前記段階は、
    任意の語彙について、前記語彙を含む前記参照形式の返答情報の数の対数値を前記ペナルティ重みとして使用する段階
    を含む、請求項10または11に記載の方法。
  14. 各語彙のペナルティ重みを算出する前記段階は、
    任意の語彙について、前記参照形式の前記返答情報における前記語彙の出現回数の対数値を前記ペナルティ重みとして使用する段階
    を含む、請求項10または11に記載の方法。
  15. 音声認識装置であって、
    第1意図に対する返答情報に基づき動的目標言語モデルを取得または生成するように構成される第1取得モジュールであって、前記動的目標言語モデルは前端部分およびコア部分を含み、前記コア部分は、前記返答情報に関連する想定可能な表現を決定するように構成され、前記前端部分は、前記返答情報に対する確証的情報の表現を決定するように構成される、第1取得モジュールと、
    音声信号を取得し、かつ、前記音声信号を前記音声信号より前の過去の音声信号に基づき解析して前記第1意図に関連するキーワードを生成するように構成される第2取得モジュールと、
    前記動的目標言語モデルを呼び出して第2意図およびサービス内容を決定するように構成される第1決定モジュールであって、前記動的目標言語モデルの前記前端部分は、前記キーワードのうち第1キーワードに基づき前記第2意図を解析し、前記動的目標言語モデルの前記コア部分は、前記キーワードのうち第2キーワードに基づき前記サービス内容を解析する、第1決定モジュールと
    を備える装置。
  16. 前記動的目標言語モデルは更に、後端部分を含み、前記後端部分は、更なる意図が存在するかどうかを判断するように構成され、前記装置は更に、
    前記動的目標言語モデルを呼び出して更なる意図を決定するように構成される第2決定モジュールであって、前記動的目標言語モデルの前記後端部分は、第3キーワードに基づき前記更なる意図を解析する、第2決定モジュール
    を備える、請求項15に記載の装置。
  17. 音声認識装置であって、
    第1意図に対する返答情報に基づき動的目標言語モデルを取得または生成するように構成される第1取得モジュールであって、前記動的目標言語モデルは前端部分およびコア部分を含み、前記コア部分は、前記返答情報に関連する想定可能な表現を決定するように構成され、前記前端部分は、前記返答情報に対する確証的情報の表現を決定するように構成される、第1取得モジュールと、
    音声信号を取得し、かつ、前記音声信号を解析してキーワードを生成するように構成される第2取得モジュールと、
    前記動的目標言語モデルを呼び出して第2意図およびサービス内容を決定するように構成される第1決定モジュールであって、前記動的目標言語モデルの前記前端部分は、前記キーワードのうち第1キーワードに基づき前記第2意図を解析し、前記動的目標言語モデルの前記コア部分は、前記キーワードのうち第2キーワードに基づき前記サービス内容を解析する、第1決定モジュールと
    を備え、
    前記動的目標言語モデルは更に、後端部分を含み、前記後端部分は、更なる意図が存在するかどうかを判断するように構成され、前記装置は更に、
    前記動的目標言語モデルを呼び出して更なる意図を決定するように構成される第2決定モジュールであって、前記動的目標言語モデルの前記後端部分は、第3キーワードに基づき前記更なる意図を解析する、第2決定モジュール
    を備える、装置。
  18. 前記後端部分は後端指示語を含み、
    前記第2決定モジュールは、前記後端部分を使用することにより前記第3キーワードに基づき、参照後端指示語と前記参照後端指示語が位置する時点とを解析することと、前記第1意図および前記第2意図を参照して前記参照後端指示語に基づき前記動的目標言語モデルを更新して、更新された目標言語モデルを取得することと、前記更新された目標言語モデルを呼び出して、前記第3キーワードと前記参照後端指示語が位置する前記時点とに基づき前記更なる意図を解析することとを行うように構成される、
    請求項16または17に記載の装置。
  19. 前記装置は更に、
    過去の音声信号をバッファリングするように構成されるバッファモジュール
    を備え、
    前記第2取得モジュールは、前記音声信号を解析し、かつ、前記過去の音声信号を使用することによりコンテキスト検出を行って前記第1意図に関連する前記キーワードを生成するように構成される、
    請求項15から18のいずれか一項に記載の装置。
  20. 前記第1取得モジュールは、前記第1意図に対する前記返答情報を参照形式の前記返答情報に変換し、かつ、前記参照形式の前記返答情報に基づき前記動的目標言語モデルを取得または生成するように構成される、請求項15から19のいずれか一項に記載の装置。
  21. 前記第1取得モジュールは、訓練された言語モデルを重み付き有限状態トランスデューサに変換し、かつ、前記重み付き有限状態トランスデューサを前記動的目標言語モデルとして使用することであって、前記訓練された言語モデルは、前記参照形式の前記返答情報と参照語彙とを訓練することにより取得される、使用することを行うように構成される、請求項20に記載の装置。
  22. 前記第1取得モジュールは、
    訓練された言語モデルを重み付き有限状態トランスデューサに変換し、かつ、前記重み付き有限状態トランスデューサを第1言語モデルとして使用することであって、前記訓練された言語モデルは、前記参照形式の返答情報を訓練することにより取得され、前記返答情報の長さは基準長以上である、使用することと、
    前記参照形式の返答情報に基づき第2言語モデルを取得することであって、前記返答情報の前記長さは前記基準長より短い、取得することと、参照語彙に基づき第3言語モデルを取得することとを行うことと、
    前記第1言語モデルと、前記第2言語モデルと、前記第3言語モデルとを組み合わせて総合言語モデルを取得し、かつ、前記総合言語モデルを前記動的目標言語モデルとして使用することと
    を行うように構成される、請求項20に記載の装置。
  23. 音声認識装置であって、
    第1意図に対する返答情報に基づき動的目標言語モデルを取得または生成するように構成される第1取得モジュールであって、前記動的目標言語モデルは前端部分およびコア部分を含み、前記コア部分は、前記返答情報に関連する想定可能な表現を決定するように構成され、前記前端部分は、前記返答情報に対する確証的情報の表現を決定するように構成される、第1取得モジュールと、
    音声信号を取得し、かつ、前記音声信号を解析してキーワードを生成するように構成される第2取得モジュールと、
    前記動的目標言語モデルを呼び出して第2意図およびサービス内容を決定するように構成される第1決定モジュールであって、前記動的目標言語モデルの前記前端部分は、前記キーワードのうち第1キーワードに基づき前記第2意図を解析し、前記動的目標言語モデルの前記コア部分は、前記キーワードのうち第2キーワードに基づき前記サービス内容を解析する、第1決定モジュールと
    を備え、
    前記第1取得モジュールは、前記第1意図に対する前記返答情報を参照形式の前記返答情報に変換し、かつ、前記参照形式の前記返答情報に基づき前記動的目標言語モデルを取得または生成するように構成され、
    前記第1取得モジュールは、
    訓練された言語モデルを重み付き有限状態トランスデューサに変換し、かつ、前記重み付き有限状態トランスデューサを第1言語モデルとして使用することであって、前記訓練された言語モデルは、前記参照形式の返答情報を訓練することにより取得され、前記返答情報の長さは基準長以上である、使用することと、
    前記参照形式の返答情報に基づき第2言語モデルを取得することであって、前記返答情報の前記長さは前記基準長より短い、取得することと、参照語彙に基づき第3言語モデルを取得することとを行うことと、
    前記第1言語モデルと、前記第2言語モデルと、前記第3言語モデルとを組み合わせて総合言語モデルを取得し、かつ、前記総合言語モデルを前記動的目標言語モデルとして使用することと
    を行うように構成される、装置。
  24. 前記第1取得モジュールは、
    前記参照形式の返答情報に基づき単語コンフュージョンネットワークを取得するように構成される第1取得ユニットであって、前記返答情報の長さは基準長以上であり、前記単語コンフュージョンネットワーク内の各語彙は遷移確率を有する、第1取得ユニットと、
    各語彙のペナルティ重みを算出し、各語彙の前記ペナルティ重みに基づき前記単語コンフュージョンネットワークを重み付き有限状態トランスデューサに変換し、かつ、前記重み付き有限状態トランスデューサを第1言語モデルとして使用するように構成される算出ユニットと、
    前記参照形式の返答情報に基づき第2言語モデルを取得することであって、前記返答情報の前記長さは前記基準長より短い、取得することと、参照語彙に基づき第3言語モデルを取得することとを行うように構成される第2取得ユニットと、
    前記第1言語モデルと、前記第2言語モデルと、前記第3言語モデルとを組み合わせて総合言語モデルを取得し、かつ、前記総合言語モデルを前記動的目標言語モデルとして使用するように構成される組み合わせユニットと
    を有する、請求項20に記載の装置。
  25. 音声認識装置であって、
    第1意図に対する返答情報に基づき動的目標言語モデルを取得または生成するように構成される第1取得モジュールであって、前記動的目標言語モデルは前端部分およびコア部分を含み、前記コア部分は、前記返答情報に関連する想定可能な表現を決定するように構成され、前記前端部分は、前記返答情報に対する確証的情報の表現を決定するように構成される、第1取得モジュールと、
    音声信号を取得し、かつ、前記音声信号を解析してキーワードを生成するように構成される第2取得モジュールと、
    前記動的目標言語モデルを呼び出して第2意図およびサービス内容を決定するように構成される第1決定モジュールであって、前記動的目標言語モデルの前記前端部分は、前記キーワードのうち第1キーワードに基づき前記第2意図を解析し、前記動的目標言語モデルの前記コア部分は、前記キーワードのうち第2キーワードに基づき前記サービス内容を解析する、第1決定モジュールと
    を備え、
    前記第1取得モジュールは、前記第1意図に対する前記返答情報を参照形式の前記返答情報に変換し、かつ、前記参照形式の前記返答情報に基づき前記動的目標言語モデルを取得または生成するように構成され、
    前記第1取得モジュールは、
    前記参照形式の返答情報に基づき単語コンフュージョンネットワークを取得するように構成される第1取得ユニットであって、前記返答情報の長さは基準長以上であり、前記単語コンフュージョンネットワーク内の各語彙は遷移確率を有する、第1取得ユニットと、
    各語彙のペナルティ重みを算出し、各語彙の前記ペナルティ重みに基づき前記単語コンフュージョンネットワークを重み付き有限状態トランスデューサに変換し、かつ、前記重み付き有限状態トランスデューサを第1言語モデルとして使用するように構成される算出ユニットと、
    前記参照形式の返答情報に基づき第2言語モデルを取得することであって、前記返答情報の前記長さは前記基準長より短い、取得することと、参照語彙に基づき第3言語モデルを取得することとを行うように構成される第2取得ユニットと、
    前記第1言語モデルと、前記第2言語モデルと、前記第3言語モデルとを組み合わせて総合言語モデルを取得し、かつ、前記総合言語モデルを前記動的目標言語モデルとして使用するように構成される組み合わせユニットと
    を有する、装置。
  26. 前記算出ユニットは、任意の語彙について、前記語彙の遷移確率の負対数値を前記ペナルティ重みとして使用するように構成される、請求項24または25に記載の装置。
  27. 前記算出ユニットは、任意の語彙について、前記語彙を含む前記参照形式の返答情報の数の対数値を前記ペナルティ重みとして使用するように構成される、請求項24または25に記載の装置。
  28. 前記算出ユニットは、任意の語彙について、前記参照形式の前記返答情報における前記語彙の出現回数の対数値を前記ペナルティ重みとして使用するように構成される、請求項24または25に記載の装置。
  29. メモリとプロセッサとを備える音声認識デバイスであって、前記メモリは少なくとも1つの命令を記憶し、前記少なくとも1つの命令は、請求項1から14のいずれか一項に記載の方法を実装するために前記プロセッサによりロードおよび実行される、デバイス。
  30. コンピュータ可読記憶媒体であって、前記コンピュータ可読記憶媒体は少なくとも1つの命令を記憶し、前記命令は、請求項1から14のいずれか一項に記載の方法を実装するためにプロセッサによりロードおよび実行される、コンピュータ可読記憶媒体。
  31. プロセッサにより実行されると、請求項1から14のいずれか一項に記載の方法の段階を前記プロセッサに実施させるコンピュータプログラム。
JP2021570241A 2019-05-31 2020-03-16 音声認識の方法、装置、およびデバイス、並びにコンピュータ可読記憶媒体 Active JP7343087B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201910470966.4A CN112017642B (zh) 2019-05-31 2019-05-31 语音识别的方法、装置、设备及计算机可读存储介质
CN201910470966.4 2019-05-31
PCT/CN2020/079522 WO2020238341A1 (zh) 2019-05-31 2020-03-16 语音识别的方法、装置、设备及计算机可读存储介质

Publications (2)

Publication Number Publication Date
JP2022534242A JP2022534242A (ja) 2022-07-28
JP7343087B2 true JP7343087B2 (ja) 2023-09-12

Family

ID=73501103

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021570241A Active JP7343087B2 (ja) 2019-05-31 2020-03-16 音声認識の方法、装置、およびデバイス、並びにコンピュータ可読記憶媒体

Country Status (5)

Country Link
US (1) US20220093087A1 (ja)
EP (1) EP3965101A4 (ja)
JP (1) JP7343087B2 (ja)
CN (1) CN112017642B (ja)
WO (1) WO2020238341A1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112331210B (zh) * 2021-01-05 2021-05-18 太极计算机股份有限公司 一种语音识别装置
US11984125B2 (en) * 2021-04-23 2024-05-14 Cisco Technology, Inc. Speech recognition using on-the-fly-constrained language model per utterance
CN114882886A (zh) * 2022-04-27 2022-08-09 卡斯柯信号有限公司 Ctc仿真实训语音识别处理方法、存储介质和电子设备
CN117112065B (zh) * 2023-08-30 2024-06-25 北京百度网讯科技有限公司 大模型插件调用方法、装置、设备及介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004523004A (ja) 2001-03-01 2004-07-29 インターナショナル・ビジネス・マシーンズ・コーポレーション 階層言語モデル
JP2004333870A (ja) 2003-05-08 2004-11-25 Nissan Motor Co Ltd 移動体用音声認識装置
JP2006023345A (ja) 2004-07-06 2006-01-26 Alpine Electronics Inc テレビ画像自動キャプチャー方法及び装置
JP2008506156A (ja) 2004-07-06 2008-02-28 ボクシィファイ, インコーポレイテッド マルチスロット対話システムおよび方法
JP2015081971A (ja) 2013-10-22 2015-04-27 株式会社Nttドコモ 機能実行指示システム及び機能実行指示方法
US20150279360A1 (en) 2014-04-01 2015-10-01 Google Inc. Language modeling in speech recognition

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5384892A (en) * 1992-12-31 1995-01-24 Apple Computer, Inc. Dynamic language model for speech recognition
US7328155B2 (en) * 2002-09-25 2008-02-05 Toyota Infotechnology Center Co., Ltd. Method and system for speech recognition using grammar weighted based upon location information
US20040148170A1 (en) * 2003-01-23 2004-07-29 Alejandro Acero Statistical classifiers for spoken language understanding and command/control scenarios
JP4846336B2 (ja) * 2005-10-21 2011-12-28 株式会社ユニバーサルエンターテインメント 会話制御装置
JP5149737B2 (ja) * 2008-08-20 2013-02-20 株式会社ユニバーサルエンターテインメント 自動会話システム、並びに会話シナリオ編集装置
US8990085B2 (en) * 2009-09-30 2015-03-24 At&T Intellectual Property I, L.P. System and method for handling repeat queries due to wrong ASR output by modifying an acoustic, a language and a semantic model
KR20100012051A (ko) * 2010-01-12 2010-02-04 주식회사 다날 스타 음성 메시지 청취 시스템
US8938391B2 (en) * 2011-06-12 2015-01-20 Microsoft Corporation Dynamically adding personalization features to language models for voice search
US9082403B2 (en) * 2011-12-15 2015-07-14 Microsoft Technology Licensing, Llc Spoken utterance classification training for a speech recognition system
US9922642B2 (en) * 2013-03-15 2018-03-20 Apple Inc. Training an at least partial voice command system
US10460720B2 (en) * 2015-01-03 2019-10-29 Microsoft Technology Licensing, Llc. Generation of language understanding systems and methods
CN105590626B (zh) * 2015-12-29 2020-03-03 百度在线网络技术(北京)有限公司 持续语音人机交互方法和系统
CN105529030B (zh) * 2015-12-29 2020-03-03 百度在线网络技术(北京)有限公司 语音识别处理方法和装置
CN105632495B (zh) * 2015-12-30 2019-07-05 百度在线网络技术(北京)有限公司 语音识别方法和装置
US10832664B2 (en) * 2016-08-19 2020-11-10 Google Llc Automated speech recognition using language models that selectively use domain-specific model components
US10217458B2 (en) * 2016-09-23 2019-02-26 Intel Corporation Technologies for improved keyword spotting
CN106486120B (zh) * 2016-10-21 2019-11-12 上海智臻智能网络科技股份有限公司 交互式语音应答方法及应答系统
CN106448670B (zh) * 2016-10-21 2019-11-19 竹间智能科技(上海)有限公司 基于深度学习和强化学习的自动回复对话系统
CN107240394A (zh) * 2017-06-14 2017-10-10 北京策腾教育科技有限公司 一种动态自适应语音分析技术以用于人机口语考试的方法及系统
KR20190004495A (ko) * 2017-07-04 2019-01-14 삼성에스디에스 주식회사 챗봇을 이용한 태스크 처리 방법, 장치 및 시스템
US10083006B1 (en) * 2017-09-12 2018-09-25 Google Llc Intercom-style communication using multiple computing devices
CN108735215A (zh) * 2018-06-07 2018-11-02 爱驰汽车有限公司 车载语音交互系统、方法、设备和存储介质
CN109003611B (zh) * 2018-09-29 2022-05-27 阿波罗智联(北京)科技有限公司 用于车辆语音控制的方法、装置、设备和介质
CN109616108B (zh) * 2018-11-29 2022-05-31 出门问问创新科技有限公司 多轮对话交互处理方法、装置、电子设备及存储介质
US11004449B2 (en) * 2018-11-29 2021-05-11 International Business Machines Corporation Vocal utterance based item inventory actions
US10997968B2 (en) * 2019-04-30 2021-05-04 Microsofttechnology Licensing, Llc Using dialog context to improve language understanding

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004523004A (ja) 2001-03-01 2004-07-29 インターナショナル・ビジネス・マシーンズ・コーポレーション 階層言語モデル
JP2004333870A (ja) 2003-05-08 2004-11-25 Nissan Motor Co Ltd 移動体用音声認識装置
JP2006023345A (ja) 2004-07-06 2006-01-26 Alpine Electronics Inc テレビ画像自動キャプチャー方法及び装置
JP2008506156A (ja) 2004-07-06 2008-02-28 ボクシィファイ, インコーポレイテッド マルチスロット対話システムおよび方法
JP2015081971A (ja) 2013-10-22 2015-04-27 株式会社Nttドコモ 機能実行指示システム及び機能実行指示方法
US20150279360A1 (en) 2014-04-01 2015-10-01 Google Inc. Language modeling in speech recognition

Also Published As

Publication number Publication date
CN112017642A (zh) 2020-12-01
EP3965101A1 (en) 2022-03-09
JP2022534242A (ja) 2022-07-28
US20220093087A1 (en) 2022-03-24
EP3965101A4 (en) 2022-06-29
CN112017642B (zh) 2024-04-26
WO2020238341A1 (zh) 2020-12-03

Similar Documents

Publication Publication Date Title
JP7343087B2 (ja) 音声認識の方法、装置、およびデバイス、並びにコンピュータ可読記憶媒体
US11887604B1 (en) Speech interface device with caching component
US9905228B2 (en) System and method of performing automatic speech recognition using local private data
US7689420B2 (en) Personalizing a context-free grammar using a dictation language model
US10553216B2 (en) System and method for an integrated, multi-modal, multi-device natural language voice services environment
US11676585B1 (en) Hybrid decoding using hardware and software for automatic speech recognition systems
US20070239453A1 (en) Augmenting context-free grammars with back-off grammars for processing out-of-grammar utterances
US10917758B1 (en) Voice-based messaging
AU2012227294B2 (en) Speech recognition repair using contextual information
KR100976643B1 (ko) 자동 음성 인식 시스템용 적응형 콘텍스트
US9299347B1 (en) Speech recognition using associative mapping
US10685647B2 (en) Speech recognition method and device
US11687526B1 (en) Identifying user content
US20120271639A1 (en) Permitting automated speech command discovery via manual event to command mapping
CN110956955B (zh) 一种语音交互的方法和装置
US20180301144A1 (en) Electronic device, method for adapting acoustic model thereof, and voice recognition system
CN112863496B (zh) 一种语音端点检测方法以及装置
US11582174B1 (en) Messaging content data storage
US11893996B1 (en) Supplemental content output
US12002444B1 (en) Coordinated multi-device noise cancellation
US11790898B1 (en) Resource selection for processing user inputs
JP2020012860A (ja) 音声認識装置および音声認識方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211228

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20221222

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230104

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230330

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230801

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230815

R150 Certificate of patent or registration of utility model

Ref document number: 7343087

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150