JP6686154B2 - 発話認識方法及び装置 - Google Patents

発話認識方法及び装置 Download PDF

Info

Publication number
JP6686154B2
JP6686154B2 JP2018541475A JP2018541475A JP6686154B2 JP 6686154 B2 JP6686154 B2 JP 6686154B2 JP 2018541475 A JP2018541475 A JP 2018541475A JP 2018541475 A JP2018541475 A JP 2018541475A JP 6686154 B2 JP6686154 B2 JP 6686154B2
Authority
JP
Japan
Prior art keywords
word
preset
sequence
client information
wfst
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018541475A
Other languages
English (en)
Other versions
JP2018536905A (ja
Inventor
シアオホイ リー
シアオホイ リー
ホンイェン リー
ホンイェン リー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Publication of JP2018536905A publication Critical patent/JP2018536905A/ja
Application granted granted Critical
Publication of JP6686154B2 publication Critical patent/JP6686154B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/193Formal grammars, e.g. finite state automata, context free grammars or word networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/022Demisyllables, biphones or triphones being the recognition units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering
    • G10L2015/0633Creating reference templates; Clustering using lexical or orthographic knowledge sources

Description

本出願は、2015年11月6日付で出願された「Speech Recognition Method and Apparatus」という名称の中国特許出願第201510752397.4号の優先権を主張するものであり、この特許文献の内容は、引用により、そのすべてが本明細書に包含される。
本出願は、発話認識技術に関し、且つ、更に詳しくは、発話認識方法及び装置に関する。同時に、本出願は、別の発話認識方法及び装置にも関する。
発話は、言語の音響的な表現であり、人間が情報を交換するための最も自然な、最も効果的な、且つ、最も便利な手段であり、且つ、人間の考えを伝達するための媒体でもある。自動発話認識(ASR:Automatic Speech Recognition)は、通常、発話の認識及び解釈を通じて、コンピュータのような装置が人間によって発話された内容を対応する出力テキスト又は命令に変換するプロセスを意味している。核心的なフレームワークは、統計モデルのモデル化に基づいて、且つ、認識対象の発話信号から抽出された特性シーケンスOに従って、以下のベイズ決定規則を使用することにより、認識対象の発話信号に対応する最適なワードシーケンスW*を算出するというものである。
*=argmaxP(O|W)P(W)
ある種の実装形態においては、最適なワードシーケンスをもたらす上述のプロセスは、デコーディングプロセスと呼称されており(デコーディング機能を実現するためのモジュールは、通常、デコーダと呼称される)、即ち、上述の式によって示されている最適なワードシーケンスは、辞書、言語モデル、及びこれらに類似したものなどの様々な知識ソースによって形成されたサーチ空間におけるサーチを通じて見出されている。
様々な技術の開発に伴って、ハードウェア演算能力及びストレージ容量が大幅に改善されている。発話認識システムが産業界において徐々に適用されており、且つ、発話を人間−機械相互作用媒体として使用する様々なアプリケーションも、クライアント装置において登場しており、例えば、スマートフォン上の通話アプリケーションは、ユーザが(「Zhan San に電話をかけなさい」などの)発話命令を与えただけで、自動的に電話をかけることができる。
既存の発話認識アプリケーションは、通常、二つのモードを使用している。一つのモデルは、クライアント及びサーバに基づくものであり、即ち、クライアントが発話を収集し、この発話がネットワークを介してサーバにアップロードされ、且つ、サーバが、デコーディングを介して発話を認識してテキストを取得し、且つ、テキストをクライアントに送信している。このようなモードが採用されている理由は、クライアントが相対的に弱い演算能力と、限られたメモリ空間と、を有する一方で、サーバが、これらの二つの側面において大きな利点を有しているからである。但し、このモードが使用される際にネットワークアクセスが存在していない場合には、クライアントは、発話認識機能を完了させることができない。この問題点に鑑み、クライアントにのみ依存する発話認識アプリケーションの第二のモードが開発されるに至った。このようなモードにおいては、元々サーバ上において保存されていたモデル及びサーチ空間が、クライアント装置上においてローカルに保存するように、ダウンサイジングされ、且つ、クライアントが、発話の収集及びデコーディングの動作を単独で完了させている。
実際のアプリケーションにおいて、上述の一般的なフレームワークが第一モード又は第二モードにおいて発話認識のために使用される際には、通常、例えば、連絡先名簿内の連絡先の名前などの、クライアント装置のローカル情報に関係する発話信号内のコンテンツを効果的に認識することが不可能であり、これにより、認識精度が低下し、その結果、ユーザに不便がもたらされると共に、ユーザ経験に影響が及ぶことになる。
本出願の実施形態は、既存の発話認識技術がクライアントの適切なローカル情報の認識において低い精度しか有していないという問題を解決するための発話認識方法及び装置を提供している。本出願の実施形態は、別の発話認識方法及び装置を更に提供している。
本出願は、予め設定された発話知識ソースを利用することにより、予め設定されたクライアント情報を有する、且つ、発話信号をデコーディングするための、サーチ空間を生成するステップと、認識対象の発話信号の特性ベクトルシーケンスを抽出するステップと、特性ベクトルがサーチ空間のそれぞれの基本ユニットに対応している確率を算出するステップと、特性ベクトルシーケンスに対応するワードシーケンスを取得するべく、確率を入力として使用することにより、サーチ空間内においてデコーディング動作を実行するステップと、を有する発話認識方法を提供している。
任意選択により、サーチ空間は、重み付き有限状態トランスデューサ(WFST:Weighted Finite State Transducer)を有する。
任意選択により、サーチ空間の基本ユニットは、コンテキストに依存したトライフォンを有し、予め設定された発話知識ソースは、辞書、言語モデル、及びトライフォン状態バンドリングリストを有する。
任意選択により、予め設定された発話知識ソースを利用することにより、予め設定されたクライアント情報を有する、且つ、発話信号をデコーディングするための、サーチ空間を生成するステップは、トライフォン状態バンドリングリスト、辞書、及び言語モデルに基づいている単一のWFSTを取得するべく、ラベル置換により、予め設定された主題クラスに対応する予め設定されたクライアント情報を少なくとも言語モデルに基づいている予め生成されたWFSTに追加するステップを有する。言語モデルは、言語モデルをトレーニングするためのテキスト内の予め設定された名前エンティティを予め設定された主題クラスに対応するラベルによって置換し、且つ、言語モデルをトレーニングするべくテキストを使用する、という方式による事前トレーニングを通じて取得される。
任意選択により、トライフォン状態バンドリングリスト、辞書、及び言語モデルに基づいている単一のWFSTを取得するべく、ラベル置換により、予め設定された主題クラスに対応する予め設定されたクライアント情報を少なくとも言語モデルに基づいている予め生成されたWFSTに追加するステップは、ラベル置換により、予め設定された主題クラスに対応する予め設定されたクライアント情報を言語モデルに基づいている予め生成されたWFSTに追加するステップと、単一のWFSTを取得するべく、予め設定されたクライアント情報が追加されたWFSTをトライフォン状態バンドリングリスト及び辞書に基づいている予め生成されたWFSTと組み合わせるステップと、を有する。
任意選択により、言語モデルをトレーニングするためのテキストは、予め設定された主題クラス用のテキストを意味している。
任意選択により、予め設定された主題クラスの数は、少なくとも二つであり、言語モデルの数及び少なくとも言語モデルに基づいているWFSTの数は、それぞれ、予め設定された主題クラスの数と同一であり、ラベル置換により、予め設定された主題クラスに対応する予め設定されたクライアント情報を少なくとも言語モデルに基づいている予め生成されたWFSTに追加するステップは、認識対象の発話信号が属する予め設定された主題クラスを判定するステップと、予め設定された主題クラスに対応する、且つ、少なくとも言語モデルに基づいている、予め生成されたWFSTを選択するステップと、対応するラベルを予め設定された主題クラスに対応する予め設定されたクライアント情報によって置換することにより、予め設定されたクライアント情報を選択されたWFSTに追加するステップと、を有する。
任意選択により、認識対象の発話信号が属する予め設定された主題クラスを判定するステップは、発話信号を収集するクライアント又はアプリケーションプログラムのタイプに従って、認識対象の発話信号が属する予め設定された主題クラスを判定する、という方式によって実現されている。
任意選択により、予め設定された主題クラスは、電話をかけること、テキストメッセージを送信すること、歌を演奏すること、或いは、命令を設定することを有し、対応する予め設定されたクライアント情報は、連絡先名簿内の連絡先の名前、歌ライブラリ内の歌の名前、又は命令セット内の命令を有する。
任意選択により、組合せ動作は、予測に基づいた方法を使用することにより、組み合わせるステップを有する。
任意選択により、言語モデルを事前トレーニングするべく使用されるワードリストは、辞書内に含まれているワードと一貫性を有する。
任意選択により、特性ベクトルがサーチ空間のそれぞれの基本ユニットに対応している確率を算出するステップは、特性ベクトルがそれぞれのトライフォン状態に対応している確率を算出するべく、予めトレーニングされたDNN(Deep Neural Network)モデルを使用するステップと、特性ベクトルがそれぞれのトライフォン状態に対応している確率に従って特性ベクトルがそれぞれのトライフォンに対応している確率を算出するべく、予めトレーニングされたHMM(Hidden Markov Model)モデルを使用するステップと、を有する。
任意選択により、実行速度は、特性ベクトルがそれぞれのトライフォン状態に対応している確率を算出するべく、予めトレーニングされたDMMモデルを使用するステップのために、ハードウェアプラットフォームによって提供されているデータ並列処理能力を使用する、という方式によって改善されている。
任意選択により、認識対象の発話信号の特性ベクトルシーケンスを抽出するステップは、複数のオーディオフレームを取得するべく、予め設定されたフレーム長に従って認識対象の発話信号に対してフレーム分割処理を実行するステップと、特性ベクトルシーケンスを取得するべく、それぞれのオーディオフレームの特性ベクトルを抽出するステップと、を有する。
任意選択により、それぞれのオーディオフレームの特性ベクトルを抽出するステップは、MFCC(Mel Frequency Cepstrum Coefficient)特性、PLP(Perceptual Linear Predictive)特性、又はLPC(Linear Predictive Coding)特性を抽出するステップを有する。
任意選択により、特性ベクトルシーケンスに対応するワードシーケンスを取得した後に、予め設定されたクライアント情報との間においてテキストマッチングを実行することにより、ワードシーケンスの精度を検証し、且つ、検証の結果に従って対応する発話認識結果を生成する、という動作が実行される。
任意選択により、予め設定されたクライアント情報との間においてテキストマッチングを実行することにより、ワードシーケンスの精度を検証し、且つ、検証の結果に従って対応する発話認識結果を取得するステップは、ワードシーケンスから予め設定されたクライアント情報に対応する検証対象のワードを選択するステップと、予め設定されたクライアント情報内において検証対象のワードについてサーチするステップと、検証対象のワードが見出された場合に、精度検証に合格したと判定し、且つ、ワードシーケンスを発話認識結果として使用し、さもなければ、ピンインに基づいたファジーマッチングによってワードシーケンスを訂正し、且つ、訂正済みのワードシーケンスを発話認識結果として使用するステップと、を有する。
任意選択により、ピンインに基づいたファジーマッチングによってワードシーケンスを訂正するステップは、検証対象のワードを検証対象のピンインシーケンスに変換するステップと、それぞれ、予め設定されたクライアント情報内のそれぞれのワードを比較ピンインシーケンスに変換するステップと、検証対象のピンインシーケンスとそれぞれの比較ピンインシーケンスとの間の類似性の程度を順番に算出し、且つ、類似性の程度の下降順においてソートされた後に、予め設定されたクライアント情報から高位にランク付けされたワードを選択するステップと、ワードシーケンス内において検証対象のワードを置換して訂正済みのワードシーケンスを取得するべく、選択されたワードを使用するステップと、を有する。
任意選択により、類似性の程度は、編集距離に従って算出された類似性の程度を有する。
任意選択により、方法は、クライアント装置上において実装され、クライアント装置は、スマートモバイル端末、スマートスピーカ、又はロボットを有する。
対応する方式により、本出願は、予め設定された発話知識ソースを利用することにより、予め設定されたクライアント情報を有する、且つ、発話信号をデコーディングするための、サーチ空間を生成するように構成されたサーチ空間生成ユニットと、認識対象の発話信号の特性ベクトルシーケンスを抽出するように構成された特性ベクトル抽出ユニットと、特性ベクトルがサーチ空間のそれぞれの基本ユニットに対応している確率を算出するように構成された確率算出ユニットと、特性ベクトルシーケンスに対応するワードシーケンスを取得するべく、確率を入力として使用することにより、サーチ空間内においてデコーディング動作を実行するように構成されたデコーディングサーチユニットと、を有する発話認識装置を更に提供している。
任意選択により、サーチ空間生成ユニットは、トライフォン状態バンドリングリスト、辞書、及び言語モデルに基づいている単一のWFSTを取得するべく、ラベル置換により、予め設定された主題クラスに対応する予め設定されたクライアント情報を少なくとも言語モデルに基づいている予め生成されたWFSTに追加するように構成されており、言語モデルは、言語モデルトレーニングユニットによって予め生成され、且つ、言語モデルトレーニングユニットは、言語モデルをトレーニングするためのテキスト内の予め設定された名前エンティティを予め設定された主題クラスに対応するラベルによって置換するように、且つ、言語モデルをトレーニングするべくテキストを使用するように、構成されている。
任意選択により、サーチ空間生成ユニットは、ラベル置換により、予め設定された主題クラスに対応する予め設定されたクライアント情報を言語モデルに基づいている予め生成されたWFSTに追加するように構成された第一クライアント情報追加サブユニットと、単一のWFSTを取得するべく、予め設定されたクライアント情報が追加されたWFSTをトライフォン状態バンドリングリスト及び辞書に基づいている予め生成されたWFSTと組み合わせるように構成されたWFST組合せサブユニットと、を有する。
任意選択により、サーチ空間生成ユニットは、ラベル置換により、予め設定された主題クラスに対応する予め設定されたクライアント情報を少なくとも言語モデルに基づいている予め生成されたWFSTに追加するように構成された第二クライアント情報追加サブユニットと、第二クライアント情報追加サブユニットが追加動作を完了した後に、トライフォン状態バンドリングリスト、辞書、及び言語モデルに基づいている単一のWFSTを取得するように構成された統合型のWFST取得サブユニットと、を有する。第二クライアント情報追加サブユニットは、認識対象の発話信号が属する予め設定された主題クラスを判定するように構成された主題判定サブユニットと、予め設定された主題クラスに対応する、且つ、少なくとも言語モデルに基づいている、予め生成されたWFSTを選択するように構成されたWFST選択サブユニットと、対応するラベルを予め設定された主題クラスに対応する予め設定されたクライアント情報によって置換することにより、予め設定されたクライアント情報を選択されたWFSTに追加するように構成されたラベル置換サブユニットと、を有する。
任意選択により、主題判定サブユニットは、発話信号を収集するクライアント又はアプリケーションプログラムのタイプに従って、認識対象の発話信号が属する予め設定された主題クラスを判定するように構成されている。
任意選択により、WFST組合せサブユニットは、予測に基づいた方法を使用することにより、組合せ動作を実行するように、且つ、単一のWFSTを取得するように、構成されている。
任意選択により、確率算出ユニットは、特性ベクトルがそれぞれのトライフォン状態に対応している確率を算出するべく、予めトレーニングされたDNNモデルを使用するように構成されたトライフォン状態確率算出サブユニットと、特性ベクトルがそれぞれのトライフォン状態に対応している確率に従って特性ベクトルがそれぞれのトライフォンに対応している確率を算出するべく、予めトレーニングされたHMMモデルを使用するように構成されたトライフォン確率算出サブユニットと、を有する。
任意選択により、特性ベクトル抽出ユニットは、複数のオーディオフレームを取得するべく、予め設定されたフレーム長に従って、認識対象の発話信号に対してフレーム分割処理を実行するように構成されたフレーム分割サブユニットと、特性ベクトルシーケンスを取得するべく、それぞれのオーディオフレームの特性ベクトルを抽出するように構成された特性抽出サブユニットと、を有する。
任意選択により、装置は、デコーディングサーチユニットが特性ベクトルシーケンスに対応するワードシーケンスを取得した後に、予め設定されたクライアント情報との間においてテキストマッチングを実行することにより、ワードシーケンスの精度を検証するように、且つ、検証の結果に従って対応する発話認識結果を生成するように、構成された精度検証ユニットを有する。
任意選択により、精度検証ユニットは、ワードシーケンスから予め設定されたクライアント情報に対応する検証対象ワードを選択するように構成された検証対象ワード選択サブユニットと、予め設定されたクライアント情報内において検証対象のワードについてサーチするように構成されたサーチサブユニットと、サーチサブユニットが検証対象のワードを見出した際に、精度検証に合格したと判定するように、且つ、ワードシーケンスを発話認識結果として使用するように、構成された認識結果判定サブユニットと、サーチサブユニットが検証対象のワードを見出さない際に、ピンインに基づいたファジーマッチングにより、ワードシーケンスを訂正するように、且つ、訂正されたワードシーケンスを発話認識結果として使用するように、構成された認識結果訂正サブユニットと、を有する。
任意選択により、認識結果訂正サブユニットは、検証対象のワードを検証対象のピンインシーケンスに変換するように構成された検証対象ピンインシーケンス変換サブユニットと、それぞれ、予め設定されたクライアント情報内のそれぞれのワードを比較ピンインシーケンスに変換するように構成された比較ピンインシーケンス変換サブユニットと、検証対象のピンインシーケンスとそれぞれの比較ピンインシーケンスとの間の類似の程度を順番に算出するように、且つ、類似の程度の下降順においてソートされた後に、予め設定されたクライアント情報から高位にランク付けされたワードを選択するように、構成された類似の程度算出サブユニットと、ワードシーケンス内において検証対象のワードを置換して訂正済みのワードシーケンスを取得するべく、選択されたワードを使用するように構成された検証対象ワード置換サブユニットと、を有する。
更には、本出願は、デコーディングを通じて、認識対象の発話信号に対応するワードシーケンスを取得するステップと、予め設定されたクライアント情報との間においてテキストマッチングを実行することにより、ワードシーケンスの精度を検証し、且つ、検証の結果に従って対応する発話認識結果を生成するステップと、を有する別の発話認識方法をも提供している。
任意選択により、予め設定されたクライアント情報との間においてテキストマッチングを実行することにより、ワードシーケンスの精度を検証し、且つ、検証の結果に従って対応する発話認識結果を生成するステップは、ワードシーケンスから予め設定されたクライアント情報に対応する検証対象のワードを選択するステップと、予め設定されたクライアント情報内において検証対象のワードについてサーチするステップと、検証対象のワードが見出された場合に、精度検証に合格したと判定し、且つ、ワードシーケンスを発話認識結果として使用し、さもなければ、ピンインに基づいたファジーマッチングにより、ワードシーケンスを訂正し、且つ、訂正済みのワードシーケンスを発話認識結果として使用するステップと、を有する。
任意選択により、ピンインに基づいたファジーマッチングによってワードシーケンスを訂正するステップは、検証対象のワードを検証対象のピンインシーケンスに変換するステップと、それぞれ、予め設定されたクライアント情報内のそれぞれのワードを比較ピンインシーケンスに変換するステップと、検証対象のピンインシーケンスとそれぞれの比較ピンインシーケンスとの間の類似性の程度を順番に算出し、且つ、類似性の程度の下降順においてソートされた後に、予め設定されたクライアント情報から高位にランク付けされたワードを選択するステップと、ワードシーケンス内において検証対象のワードを置換して訂正済みのワードシーケンスを取得するべく、選択されたワードを使用するステップと、を有する。
対応する方式により、本出願は、デコーディングを通じて、認識対象の発話信号に対応するワードシーケンスを取得するように構成されたワードシーケンス取得ユニットと、予め設定されたクライアント情報との間においてテキストマッチングを実行することにより、ワードシーケンスの精度を検証するように、且つ、検証の結果に従って対応する発話認識結果を生成するように、構成されたワードシーケンス検証ユニットと、を有する別の発話認識装置を更に提供している。
任意選択により、ワードシーケンス検証ユニットは、ワードシーケンスから予め設定されたクライアント情報に対応する検証対象のワードを選択するように構成された検証対象ワード選択サブユニットと、予め設定されたクライアント情報内において検証対象のワードについてサーチするように構成されたサーチサブユニットと、サーチサブユニットが検証対象のワードを見出した際に、精度検証に合格したと判定するように、且つ、ワードシーケンスを発話認識結果として使用するように、構成された認識結果判定サブユニットと、サーチサブユニットが検証対象のワードを見出さない際に、ピンインに基づいたファジーマッチングにより、ワードシーケンスを訂正するように、且つ、訂正済みのワードシーケンスを発話認識結果として使用するように、構成された認識結果訂正サブユニットと、を有する。
任意選択により、認識結果訂正サブユニットは、検証対象のワードを検証対象のピンインシーケンスに変換するように構成された検証対象ピンインシーケンス変換サブユニットと、それぞれ、予め設定されたクライアント情報内のそれぞれのワードを比較ピンインシーケンスに変換するように構成された比較ピンインシーケンス変換サブユニットと、検証対象のピンインシーケンスとそれぞれの比較ピンインシーケンスとの間の類似性の程度を順番に算出するように、且つ、類似性の程度の下降順においてソートされた後に、予め設定されたクライアント情報から高位にランク付けされたワードを選択するように、構成された類似性の程度算出サブユニットと、ワードシーケンス内において検証対象のワードを置換して訂正済みのワードシーケンスを取得するべく、選択されたワードを使用するように構成された検証対象ワード置換サブユニットと、を有する。
従来技術との比較において、本出願は、以下のような利点を有する。
本出願による発話認識方法によれば、予め設定された発話知識ソースに基づいて、予め設定されたクライアント情報を有する、且つ、発話信号をデコーディングするための、サーチ空間が生成され、認識対象の発話信号から抽出された特性ベクトルがサーチ空間の基本ユニットに対応している確率が算出され、且つ、デコーディング動作が、確率に従ってサーチ空間内において実行され、これにより、認識対象の発話信号に対応するワードシーケンスが取得される。デコーディング用のサーチ空間が生成された際に、予め設定されたクライアント情報がサーチ空間内に含まれていることから、本発明による上述の方法は、クライアントによって収集された発話信号を認識する際に、相対的に正確な方式によってクライアントに関係する情報を認識することができる。従って、発話認識の精度及びユーザ経験を改善することができる。
本出願による例示用の発話認識方法のフローチャートである。 本出願のいくつかの実施形態による、予め設定されたクライアント情報を有する、且つ、発話信号をデコーディングするための、サーチ空間を生成する例示用のプロセスのフローチャートである。 本出願のいくつかの実施形態による置換動作の実行前のG構造WFSTの概略図である。 本出願のいくつかの実施形態による置換動作の実行後のG構造WFSTの概略図である。 本出願のいくつかの実施形態による認識対象の発話信号の特性ベクトルシーケンスを抽出するプロセスのフローチャートである。 本出願のいくつかの実施形態による特性ベクトルがそれぞれのトライフォンに対応している確率を算出するプロセスのフローチャートである。 本出願のいくつかの実施形態によるテキストマッチングを通じてワードシーケンスの精度を検証し、且つ、検証結果に従って対応する発話認識結果を生成するプロセスのフローチャートである。 本出願のいくつかの実施形態による発話認識の全体ブロックダイアグラムである。 本出願による例示用の発話認識装置の概略図である。 本出願による別の例示用の発話認識方法のフローチャートである。 本出願による別の例示用の発話認識装置の概略図である。
以下の説明においては、本出願の十分な理解を促進するべく、詳細について説明する。但し、本出願は、本明細書において記述されているものとは異なる多数のその他の方式によって実装することができる。当業者は、本開示の内容と矛盾することなしに、類似の実施形態に到達することができる。従って、本出願は、以下において開示されている特定の実施形態によって限定されるものではない。
本出願においては、それぞれ、発話認識方法及び対応する装置のみならず、別の発話認識方法及び対応する装置も、提供されており、以下の実施形態においては、これらについて一つずつ詳細に説明することとする。理解を促進するべく、実施形態について説明する前に、本出願の技術的解決策及び関係する技術的用語のみならず、本出願の実施形態が記述される方式について、簡潔に説明することとする。
本出願による発話認識方法は、通常、発話を人間−機械相互作用媒体として使用しているアプリケーションにおいて適用することができる。このタイプのアプリケーションは、テキストを取得するべく、収集された発話信号を認識することが可能であり、且つ、次いで、テキストに従って対応する動作を実行することができる。発話信号は、通常、クライアントにとってローカルである、予め設定された情報(例えば、連絡先名簿内の一つの連絡先の名称)に関係している。既存の発話認識技術は、一般的なサーチ空間を使用することにより、デコーディング認識を上述の認識対象の発話信号に対して実行しており、一般的なサーチ空間は、異なるクライアント上におけるこのタイプのアプリケーションの相違点を考慮してはいない。従って、通常、クライアントのローカル情報に関係する発話信号内のコンテンツを効果的に認識することが不可能であり、その結果、低い認識精度に結び付いている。この問題との関連において、本出願の技術的解決策は、発話信号をデコーディングするためのサーチ空間を構築するプロセスにおいて、予め設定されたクライアント情報を統合することが可能であり、これは、クライアントの特定の発話認識需要をカスタマイズすることであってもよい。その結果、発話認識精度を改善するべく、クライアントに関係するローカル情報を効果的に認識することができる。
発話認識システムにおいては、認識対象の発話信号に従って最良のマッチングワードシーケンスを取得するプロセスは、デコーディングと呼称されている。本出願に従って発話信号をデコーディングするためのサーチ空間は、発話認識システムに関与する発話知識ソース(例えば、音響モデル、辞書、言語モデル、及びこれらに類似したもの)によってカバーされると共に、すべての可能な発話認識結果によって形成された、空間を意味している。対応する方式により、デコーディングプロセスは、認識対象の発話信号の最適なマッチングを取得するべく、サーチ空間内においてサーチ及びマッチングを実行するプロセスである。
サーチ空間は、様々な形態を有することができる。相互に独立した異なるレベルにおける様々な知識ソースを有するサーチ空間を使用することができる。デコーディングプロセスは、レベルごとの計算及びサーチプロセスであってもよい。或いは、この代わりに、様々な知識ソースを統合型のWFSTネットワーク(WFSTサーチ空間とも呼称される)に統合するべく、WFST(Weighted Finite State Tansducer)に基づいたサーチ空間を使用することもできる。後者は、本出願の技術的解決策における発話認識用の好適なモードであり、その理由は、その結果、異なる知識ソースの導入が促進され、且つ、サーチ効率を改善することができるからである。従って、WFSTネットワークに基づいた実装方式が、本出願の実施形態における説明の焦点となる。
WFSTサーチ空間の核心は、言語の文法構造及び関係する音響特性をシミュレートするべく、WFSTを使用することにある。その動作方法は、それぞれ、知識ソースをWFSTの形態において異なるレベルにおいて表現するステップと、次いで、異なるレベルにおける上述の知識ソースを単一のWFSTネットワークに統合するべく、且つ、発話認識用のサーチ空間を形成するべく、WFST特性及び組合せアルゴリズムを使用するステップと、を有する。
WFSTネットワークの基本ユニット(即ち、状態変換を実行するべくWFSTを駆動する基本ユニット)は、特定のニーズに従って選択することができる。音素の発音に対する音素の文脈の影響を考慮することにより、本出願の実施形態においては、相対的に高い認識精度レートを実現するように、文脈に依存したトライフォン(略して、トライフォン又は三音素)をWFSTネットワークの基本ユニットとして使用することができる。WFSTサーチ空間を構築するための対応する知識ソースは、トライフォン状態バンドリングリスト、辞書、及び言語モデルを含む。
トライフォン状態バンドリングリストは、通常、発音特性に基づいているトライフォンの間のバンドリング関係を有する。音響モデルをモデル化ユニットとしてのトライフォンによってトレーニングする際には、トライフォンを組み合わせる多数の可能な方法が存在している。トレーニングデータに対する需要を低減するべく、通常、決定木クラスター化法を使用することにより、且つ、最大尤度規則を踏襲することにより、異なるトライフォンを発音特性に基づいてクラスター化することが可能であり、且つ、トライフォンを同一の発音特性とバンドルしてパラメータ共有を促進することにより、トライフォン状態バンドリングリストを取得するべく、バンドリング技術が使用される。辞書は、通常、音素とワードとの間の対応する関係を有しており、これは、音響層のコンテンツとセマンティック層のコンテンツとを結合すると共に関連付けるための、音響層(物理層)とセマンティック層との間の橋である。言語モデルは、言語構造と関係する知識を提供し、且つ、ワードシーケンスが自然言語において出現する確率を算出するべく使用される。通常、実際的な実装形態においては、nグラム文法言語モデルが使用されており、且つ、このモデルは、ワードの後続の出現の可能性を統計的に判定することにより、生成することができる。
上述の知識ソースに基づいて構築されたWFSTネットワークが発話認識のために使用される際には、WFSTを駆動して望ましいサーチを実行するべく、まずは、認識対象の発話信号の特性ベクトルシーケンスを抽出することができる。次いで、特性ベクトルがそれぞれのトライフォンに対応している確率を算出するべく、予めトレーニングされたモデルが使用される。認識対象の発話信号に対応するワードシーケンスを取得するべく、それぞれのトライフォンの確率に従って、デコーディング動作がWFSTサーチ空間内において実行される。
本出願の実施形態においては、文脈に依存したトライフォンがWFSTネットワークの基本ユニットとして使用されていることに留意されたい。又、その他の実装方式においては、例えば、モノフォン又はトライフォン状態などの、その他の発話ユニットをWFSTネットワークの基本ユニットとして使用することもできる。異なる基本ユニットが使用される際には、サーチ空間が構築される際に、且つ、確率が特性ベクトルに従って算出される際に、特定の差が存在することになる。例えば、トライフォン状態が基本ユニットとして使用される場合には、WFSTネットワークが構築される際に、HMMに基づいた(Hidden Markov Model に基づいた)音響モデルを統合することが可能であり、且つ、発話認識の際に、特性ベクトルがそれぞれのトライフォン状態に対応している確率を算出することができる。上述のすべては、実装方式の変形である。これらは、予め設定されたクライアント情報がサーチ空間構築の際にサーチ空間内に含まれている限り、本出願の技術的解決策を実現することが可能であり、これらは、本出願の技術的革新を逸脱してはおらず、且つ、これらは、本出願の範囲に含まれている。
以下、本出願の実施形態について、更に詳細に説明することとする。図1を参照すれば、図1は、本出願による例示用の発話認識方法のフローチャートである。方法は、ステップ101〜ステップ104を有する。実装の際の実行効率を改善するべく、ステップ101の実行のための準備において、一つ又は複数のクラスに基づいた言語モデル、予め設定された構造を有するWFST、及び一つ又は複数の発話認識音響モデルを生成するように、通常は、ステップ101の前に、関連する準備(準備フェーズとも呼称され得るフェーズ)を完了させることができる。以下においては、まず、準備フェーズについて詳細に説明することとする。
準備フェーズにおいて、言語モデルは、言語モデルをトレーニングするためのテキスト内の予め設定された名前エンティティを予め設定された主題クラスに対応するラベルによって置換し、且つ、言語モデルをトレーニングするべくテキストを使用する、という方式によってトレーニングすることができる。名前エンティティは、通常、例えば、人物の名前、歌の名前、組織の名前、場所の名前、及びこれらに類似したものなどの、特定のクラスを有するテキスト内のエンティティを意味している。
以下においては、電話をかけるアプリケーションが一例として使用されており、予め設定された主題クラスは、電話をかけることであり、対応するラベルは、「$CONTACT」であり、且つ、予め設定された名前エンティティは、人物の名前である。言語モデルを予めトレーニングする際に、トレーニングテキスト内の名前を対応するラベルによって置換することができる。例えば、「わたしは、Xiao Ming に電話をかけたい」における「Xiao Ming」は、「$CONTACT」によって置換され、且つ、取得されるトレーニングテキストは、「わたしは、$CONTACTに電話をかけたい」である。上述のエンティティ置換の後に、言語モデルをトレーニングするべくテキストを使用することにより、クラスに基づいた言語モデルが得られる。上述の言語モデルがトレーニングを通じて得られることに基づいて、言語モデルに基づいたWFSTを更に予め生成することが可能であり、これは、以下においては、G構造WFSTと呼称される。
好ましくは、言語モデルのサイズ及び対応するG構造WFSTのサイズを低減するべく、予め設定された主題クラス用のテキスト(クラスに基づいたトレーニングテキストと呼称し得る)をトレーニングのために選択することができる。例えば、予め設定された主題クラスは、電話をかけることであり、且つ、その結果、予め設定された主題クラス用のテキストは、「わたしは、Xiao Ming に電話をかけたい」、「Xiao Ming に電話をかけなさい」、及びこれらに類似したものを有することができる。
発話を人間−機械相互作用媒体として使用している多様なクライアント装置及びアプリケーションプログラムに鑑み、二つ以上の主題クラスを予め設定することが可能であり、且つ、それぞれ、それぞれの主題クラスごとに、クラスに基づいた言語モデルを予めトレーニングすることが可能であり、且つ、G構造WFSTを言語モデルに基づいて構築することができる。
又、準備フェーズにおいては、辞書に基づいたWFSTを予め構築することが可能であり、これは、以下においては、L構造WFSTと呼称され、且つ、トライフォン状態バンドリングリストに基づいたWFSTを予め構築することも可能であり、これは、以下においては、C構造WFSTと呼称される。この結果、予め設定された方式により、適切且つ選択的な組合せ動作を上述のWFSTに対して実行することができる。例えば、C構造及びL構造WFSTをCL構造WFSTとして組み合わせることが可能であり、且つ、L構造及びG構造WFSTをLG構造WFSTとして組み合わせることが可能であり、且つ、C構造、L構造、及びG構造WFSTをCLG構造WFSTとして組み合わせることができる。本実施形態においては、CL構造WFST及びG構造WFSTが準備フェーズにおいて生成されている(組合せ動作の説明については、ステップ101における関連するテキストを参照されたい)。
準備フェーズにおいては、更に、発話認識のための音響モデルを予めトレーニングすることができる。本実施形態においては、それぞれのトライフォンは、HMM(Hidden Markov Model)によって特徴付けされており、HMMの隠蔽状態は、トライフォンの一つの状態であり(それぞれのトライフォンは、通常、三つの状態を有する)、且つ、HMMのそれぞれの隠蔽状態がそれぞれの特性ベクトルを出力する通過確率を判定するべく、GMM(Gaussian Mixture Model)モデルが使用される。大きな発話データから抽出された特性ベクトルが、トレーニングサンプルとして使用され、且つ、GMMモデル及びHMMモデルのパラメータを学習してそれぞれの状態に対応するGMMモデル及びそれぞれのトライフォンに対するHMMモデルを取得するべく、Baum-Welch アルゴリズムが使用される。後続のステップ103においては、特性ベクトルがそれぞれのトライフォンに対応している確率を算出するべく、予めトレーニングされたGMM及びHMMモデルを使用することができる。
発話認識の精度を改善するべく、本実施形態は、発話認識を実行する際に、GMMモデルを置換するべく、DNN(Deep Neural Network)モデルを使用している。対応する方式により、入力された特性ベクトルに従ってそれぞれのトライフォン状態に対応する確率を出力するDNNモデルを準備フェーズにおいて予めトレーニングすることができる。ある種の実装形態においては、トレーニングサンプルに対して強制的なアライメントを実行し、それぞれのトライフォン状態に対応するラベルをトレーニングサンプルに追加し、且つ、GMM及びHMMモデルをラベル付けされたトレーニングサンプルによってトレーニングすることにより、DNNモデルを取得することができる。
ある種の実装形態の準備フェーズにおける演算の量が非常に大きく、その結果、メモリ及び演算速度における相対的に大きな要件が課されていることに留意されたい。従って、準備フェーズの動作は、通常、サーバにおいて完了させることができる。環境がネットワークアクセスを有していない際にも発話認識の機能が実行可能となるように、本出願による方法は、通常、クライアント装置上において実装することができる。従って、準備フェーズにおいて生成されたすべてのWFST及び音響確率の計算用のすべてのモデルをクライアント装置内に予めインストールすることが可能であり、例えば、これらは、アプリケーションプログラムと共にパッケージ化することが可能であり、且つ、一緒にクライアントにインストールすることができる。
以上においては、本実施形態に関与している準備フェーズについて詳細に説明した。以下、本実施形態のステップ101〜104について詳細に説明することとする。
ステップ101:予め設定された発話知識ソースに基づいて、予め設定されたクライアント情報を有する、且つ、発話信号をデコーディングするための、サーチ空間を生成している。
このステップにおいては、後続の発話認識のための準備作業として、WFSTサーチ空間が構築されている。ある種の実装形態においては、このステップは、ラベル置換により、予め設定された主題クラスに対応する予め設定されたクライアント情報を少なくとも言語モデルに基づいている予め生成されたWFSTに追加するべく、且つ、トライフォン状態バンドリングリスト、辞書、及び言語モデルに基づいている単一のWFSTを取得するべく、通常、発話を人間−機械相互作用媒体として使用しているクライアントアプリケーションプログラムの起動フェーズ(初期化フェーズとも呼称される)において実行されている。
このステップのおけるプロセスは、以下のステップ101−1〜101−4を有することが可能であり、以下、図2を参照し、これらについて更に説明することとする。
ステップ101−1:認識対象の発話信号が属する予め設定された主題クラスを判定している。
ある種の実装形態においては、発話信号を収集するクライアント及びアプリケーションプログラムのタイプに従って、認識対象の発話信号が属する予め設定された主題クラスを判定することができる。予め設定された主題クラスは、電話をかけること、テキストメッセージを送信すること、歌を演奏すること、命令を設定すること、或いは、その他のアプリケーションシナリオに関係する主題クラスを有する。ここで、電話をかけること又はテキストメッセージを送信することに対応する予め設定されたクライアント情報は、連絡先名簿内の連絡先の名前を有し、歌を演奏することに対応する予め設定されたクライアント情報は、歌ライブラリ内の歌の名前を有し、命令を設定することに対応する予め設定されたクライアント情報は、命令セット内の命令を有し、且つ、その他のアプリケーションシナリオに関係する主題クラスは、同様に、アプリケーションシナリオに関与している予め設定されたクライアント情報に対応することが可能であり、これについては、本明細書においては、繰り返しを省略することとする。
例えば、スマートフォンの場合には、クライアントのタイプに従って、認識対象の発話信号が属する予め設定された主題クラスは、電話をかけること、或いは、テキストメッセージを送信すること、であると判定することが可能であり、且つ、対応する予め設定されたクライアント情報は、連絡先名簿内の連絡先の名前を有する。スマートスピーカの場合には、予め設定された主題クラスは、歌を演奏することであると判定することが可能であり、且つ、対応する予め設定されたクライアント情報は、歌ライブラリ内の歌の名前を有する。ロボットの場合には、予め設定された主題クラスは、命令を設定することであると判定することが可能であり、且つ、対応する予め設定されたクライアント情報は、命令セット内の命令を有する。
クライアント装置は、発話を人間−機械相互作用媒体して使用している複数のアプリケーションを同時に有することができることを考慮することにより、異なるアプリケーションは、異なる予め設定されたクライアント情報を伴っている。例えば、スマートフォンには、発話相互作用に基づいた音楽プレーヤをインストールすることもできる。このようなケースにおいては、現時点において起動されているアプリケーションプログラムに従って、認識対象の発話信号が属する予め設定された主題クラスを判定することができる。
ステップ101−2:予め設定された主題クラスに対応する予め生成されたG構造WFSTを選択している。
複数の予め設定された主題クラスを有する状況においては、通常、複数のG構造WFSTが準備フェーズにおいて生成されることになり、且つ、それぞれのG構造WFSTは、異なる予め設定された主題クラスに対応している。このステップは、予め生成された複数のG構造WFSTから、ステップ101−1において判定された予め設定された主題クラスに対応するG構造WFSTを選択している。
ステップ101−3:対応するラベルを予め設定された主題クラスに対応する予め設定されたクライアント情報によって置換することにより、予め設定されたクライアント情報を選択されたG構造WFSTに追加している。
準備フェーズにおいて、それぞれの予め設定された主題クラスについて、クラスに基づいた言語モデルをトレーニングする際には、トレーニングテキスト内の予め設定された名前エンティティが、対応する予め設定された主題クラスに対応するラベルによって置換される。例えば、予め設定された主題クラスが、電話をかけること、或いは、テキストメッセージを送信すること、である場合には、トレーニングテキスト内の人物の名前は、「$CONTACT」というラベルによって置換され、予め設定された主題クラスが、歌を演奏すること、である場合には、トレーニングテキスト内の歌の名前は、「$SONG」というラベルによって置換される。従って、生成されたG構造WFSTは、通常、予め設定された主題クラスに対応するラベル情報を有する。このステップは、ステップ101−2において選択されたG構造WFST内の対応するラベルを置換することにより、予め設定されたクライアント情報を選択されたG構造WFSTに追加するという目標を実現するべく、ステップ101−1において判定された予め設定された主題クラスに対応する予め設定されたクライアント情報を使用している。
例えば、予め設定された主題クラスが、電話をかけること、或いは、テキストメッセージを送信すること、である場合には、例えば、「Zhang San」、「Li Si」、及びこれらに類似したものなどの、クライアントのローカルな連絡先名簿内の人物の名前により、G構造WFST内の「$CONTACT」のラベルを置換することが可能であり、予め設定された主題クラスが、歌を演奏すること、である場合には、例えば、「March of the Volunteers」及びこれに類似したものなどの、クライアントのローカルな歌ライブラリ内の歌の名前により、G構造WFST内の「$SONG」のラベルを置換することができる。置換を実装するべく、ラベルに対応する状態遷移経路をいくつかの並列状態遷移経路によって置換することができる。置換が、図3及び図4に従って、クライアントの連絡先名簿内の連絡先によって実行されている一例を参照すれば、この場合に、図3は、置換前のG構造WFSTの概略図であり、且つ、図4は、置換が連絡先名簿内の「Zhang San」及び「Li Si」によって実行された後に取得されたG構造WFSTの概略図である。
ステップ101−4:単一のWFSTネットワークを取得するべく、予め設定されたクライアント情報が追加されたG構造WFSTを予め生成されたCL構造WFSTと組み合わせている。
本実施形態においては、発話認識において使用される知識ソースは、言語層(言語モデル)から物理層(トライフォン状態バンドリングリスト)へのコンテンツを伴っており、且つ、このステップのタスクは、単一のWFSTネットワークを取得するべく、異なるレベルにおいてWFSTを組み合わせるというものである(これは、内蔵する、或いは、マージする、とも表現される)。
二つのWFSTの場合に、組み合わせるための基本的な条件は、その一方のWFSTの出力シンボルが、別のWFSTの入力シンボルの組のサブセットである、というものである。上述の条件が充足されている場合に、例えば、A及びBなどの、二つのWFSTが、Cという新しい一つのWFSTに統合された場合には、Cのそれぞれの状態は、Aの状態及びBの状態によって形成され、且つ、Cのそれぞれの成功的な経路は、Aの成功的な経路であるPaと、Bの成功的な経路であるPbと、によって形成される。入力は、i[P]=i[Pa]であり、出力は、o[P]=o[Pb]であり、且つ、その重み付けされた値は、Pa及びPbの重み付けされた値に対する対応する演算を通じて取得される。最終的に得られるCは、A及びBの両方に共通するWFST特性及びサーチ空間を有する。ある種の実装形態においては、二つのWFSTに関する組合せ動作を実行するべく、OpenFst ライブラリによって提供されている組合せアルゴリズムを使用することができる。
本実施形態に関する限り、L構造WFSTは、モノフォンとワードとの間の対応する関係であるものとして見なすことが可能であり、C構造WFSTは、トライフォンとモノフォンとの間の対応する関係を確立しており、且つ、その出力は、L構造WFSTの入力に対応していることを理解されたい。C構造及びL構造WFSTは、組み合わせることができる。CL構造WFSTは、本実施形態の準備フェーズにおける組合せを通じて取得されており、且つ、このステップは、CL構造WFSTをステップ101−3における予め設定されたクライアント情報が追加されたG構造WFSTと組み合わせることにより、入力がトライフォン確率であると共に出力がワードシーケンスであるWFSTネットワークを取得し、これにより、異なるレベルにおける、且つ、異なる知識ソースに対応する、WFSTを単一のWFSTネットワークとして統合して発話認識のためのサーチ空間を形成している。
好ましくは、CL構造WFST及びG構造WFSTの組合せを加速させるべく、且つ、初期化のための時間を低減するべく、本実施形態は、組合せ動作を実行する際に、従来のWFSTの組合せ方法を使用してはおらず、予測に基づいた組合せ方法(Lookahead 組合せ方法)が使用されている。Lookahead 組合せ方法に従って、現在実行されている組合せ動作がアクセス不能状態をもたらし得るかどうかが、将来経路を予測することにより、判定される。結果が肯定的である場合には、現時点の動作が阻止され、且つ、後続の組合せ動作は、もはや実行されない。予測を通じて、不要な組合せ動作を早期に終了させることが可能であり、これにより、組合せ時間を節約し得るのみならず、最終的に生成されるWFSTのサイズの低減及びストレージ空間の占有率の低減が可能である。ある種の実装形態においては、上述の予測及びスクリーニング機能を実現するべく、OpenFst ライブラリによって提供される Lookahead 機能を有するフィルタを使用することができる。
好ましくは、CL構造WFST及びG構造WFSTの組合せを加速させるべく、本実施形態において言語モデルを予めトレーニングするべく使用されているワードリストは、辞書内に含まれているワードと一貫性を有する。一般的には、ワードリスト内のワードの数は、通常、辞書内のワードの数を上回っており、ワードリスト内のワードの数は、G構造WFSTのサイズに直接的に関係付けられている。G構造WFSTが相対的に大きい場合には、G構造WFSTがCL構造WFSTと組み合わせられる際に、相対的に時間を所要することになる。従って、本実施形態は、ワードリスト内のワードが辞書内のワードと一貫性を有しており、これにより、CL構造WFSTとG構造WFSTを組み合わせるための時間を短縮するという効果が実現されるように、準備フェーズにおいて言語モデルをトレーニングする際に、ワードリストのサイズを低減している。
この時点において、技術的解決策の初期化プロセスは、ステップ101−1〜101−4を通じて完了されており、且つ、予め設定されたクライアント情報を有するWFSTサーチ空間が生成されている。
本実施形態は、準備フェーズにおいて事前にCL構造WFSTの組合せを完了させると共にG構造WFSTを生成し、予め設定されたクライアント情報がステップ101においてG構造WFSTに追加され、且つ、単一のWFSTを取得するべく、CL構造がG構造と組み合わせられていることに留意されたい。又、その他の実装方式においては、その他の組合せ方式を使用することもできる。例えば、LG構造のWFSTの組合せが準備フェーズにおいて事前に完了され、予め設定されたクライアント情報がステップ101においてWFSTに追加され、且つ、次いで、このWFSTが、準備フェーズにおいて生成されたC構造WFSTと組み合わせられる。或いは、この代わりに、CLG構造WFSTの組合せが、準備フェーズにおいて直接的に完了され、且つ、予め設定されたクライアント情報がステップ101においてこのWFSTに追加されることも実現可能である。準備フェーズにおいて生成されたWFSTがクライアントのストレージ空間を占有する必要があることを考慮すれば、それぞれのG構造WFSTが準備フェーズにおいてその他のWFSTと組み合わせられる場合には、複数のクラスに基づいた言語モデルを有する(対応する方式により、複数のG構造WFSTが存在している)アプリケーションシナリオにおいては、相対的に大きなストレージ空間が占有されることになる。従って、本実施形態によって採用されている組合せ方式は、好ましい実装方式であり、これは、準備フェーズにおいて生成されたWFSTによるクライアントのストレージ空間の占有率を低減することができる。
ステップ102:認識対象の発話信号の特性ベクトルシーケンスを抽出している。
認識対象の発話信号は、通常、時間ドメイン信号であってもよい。このステップは、フレームの分割及び特性ベクトルの抽出という二つのプロセスを通じて、発話信号を特徴付けることができる特性ベクトルシーケンスを取得している。以下、図5を参照し、更なる説明を提供することとする。
ステップ102−1:複数のオーディオフレームを取得するべく、予め設定されたフレーム長に従って、認識対象の発話信号に対してフレーム分割処理を実行している。
ある種の実装形態においては、フレーム長は、ニーズに従って予め設定することが可能であり、例えば、これは、10ms又は15msに設定することが可能であり、且つ、次いで、認識対象の発話信号が、フレームごとに、フレーム長に従って分割され、その結果、発話信号が複数のオーディオフレームに分割されている。採用される様々な分割方式に応じて、隣接するオーディオフレームは、オーバーラップしていてもよく、或いは、そうでなくてもよい。
ステップ102−2:特性ベクトルシーケンスを取得するべく、それぞれのオーディオフレームの特性ベクトルを抽出している。
認識対象の発話信号が複数のオーディオフレームに分割される際に、発話信号を特徴付けている特性ベクトルをフレームごとに抽出することができる。発話信号は、時間ドメインにおいては、相対的に弱い表現能力しか有していないことから、フーリエ変換をそれぞれのオーディオフレームに対して実行することが可能であり、且つ、次いで、オーディオフレームの特性ベクトルとして、周波数ドメイン特性が抽出される。例えば、MFCC(Mel Frequency Cepstrum Coefficient)特性、PLP(Perceptual Linear Predictive)特性、又はLPC(Linear Predictive Coding)特性を抽出することができる。
特性ベクトルを抽出するプロセスについて更に説明するべく、以下、一例として、オーディオフレームのMFCC特性の抽出を使用することとする。まず、対応するスペクトル情報を取得するべく、オーディオ信号の時間ドメイン信号にFFT(Fast Fourier Transformation)が適用され、スペクトル情報をMelフィルタの組に通してMelスペクトルを取得し、且つ、ケプストラム分析をMelスペクトルに対して実行する。この核心は、通常、逆変換のためにDCT(Discrete Cosine Transform)を使用するというものである。次いで、MFCC特性である、オーディオフレームの特性ベクトルを取得するべく、N個の予め設定された係数(例えば、N=12又は38)が取得される。それぞれのオーディオフレームは、上述の方式により、処理され、且つ、発話信号を特徴付けている一連の特性ベクトルを取得することが可能であり、これが、本出願による特性ベクトルシーケンスである。
ステップ103:特性ベクトルがサーチ空間のそれぞれの基本ユニットに対応している確率を算出している。
いくつかの実施形態においては、WFSTサーチ空間の基本ユニットは、トライフォンである。従って、このステップにおいては、特性ベクトルがそれぞれのトライフォンに対応している確率が算出されている。発話認識の精度を改善するべく、本実施形態は、確率を算出するために、強力な特性抽出能力を有するHMMモデル及びDNNモデルを使用している。又、その他の実装方式においては、その他の方式を使用することもできる。例えば、本出願の技術的解決策は、確率を算出するべく従来のGMM及びHMMモデルを使用することにより、同様に実現することも可能であり、これも、本出願の範囲に含まれている。
ある種の実装形態においては、特性ベクトルの算出がそれぞれのトライフォン状態に対応していること基づいて、特性ベクトルがそれぞれのトライフォンに対応している確率が更に算出されている。以下、図6を参照し、このステップにおけるプロセスについて更に説明することとする。
ステップ103−1:特性ベクトルがそれぞれのトライフォン状態に対応している確率を算出するべく、予めトレーニングされたDNNモデルを使用している。
DNNモデルは、本実施形態の準備フェーズにおいて予めトレーニング済みである。このステップは、ステップ102において抽出された特性ベクトルをDNNモデルに対する入力として使用しており、且つ、特性ベクトルがそれぞれのトライフォン状態に対応している確率を取得することができる。例えば、トライフォンの数は、1000個であり、それぞれのトライフォンは、三つの状態を有しており、且つ、従って、合計で3000個のトライフォンの状態が存在している。このステップにおけるDNNモデルの出力は、特性ベクトルが3000個のトライフォン状態のうちのそれぞれの状態の確率に対応しているというものである。
好ましくは、DNNモデルが採用された際には、演算の量が、通常、非常に大きいことから、本実施形態は、ハードウェアプラットフォームによって提供されている並列データ処理能力を利用することにより、DNNモデルに伴う演算の速度を改善している。例えば、埋め込み型の装置及びモバイル装置は、現時点においては、多くのケースにおいて、ARMアーキテクチャプラットフォームを使用している。現時点のARMプラットフォームの大部分には、SIMD(Single Instruction Multiple Data)NEON命令セットが存在している。この命令セットは、一つの命令内において複数のデータを処理することが可能であり、且つ、特定の並列データ処理能力を有する。本実施形態においては、ベクトル化プログラミングを通じて、SIMDプログラミングジェネリクスを形成することが可能であり、且つ、次いで、DNN演算を加速させるという目標を実現するべく、ハードウェアプラットフォームによって提供される並列データ処理能力を十分に使用することができる。
本出願の技術的解決策がクライアント装置上において実装される際には、DNNモデルのサイズは、通常、クライアントのハードウェア能力にマッチングするように、低減されることになり、これは、多くの場合に、DNNモデルの精度の低下と、結果的に、異なる発話コンテンツにおける認識能力の弱化と、をもたらすことになろう。ハードウェアの加速メカニズムを使用することにより、本実施形態は、DNNモデルのサイズを低減する必要がなく、或いは、その低減を極小化することが可能であり、且つ、従って、DNNモデルの精度を保持することが可能であると共に可能な最大程度にまで認識精度を改善することができる。
ステップ103−2:特性ベクトルがそれぞれのトライフォン状態に対応している確率に従って特性ベクトルがそれぞれのトライフォンに対応している確率を算出するべく、予めトレーニングされたHMMモデルを使用している。
それぞれのトライフォン用のHMMモデルは、準備フェーズにおいてトレーニング済みである。連続的に入力される、特性ベクトルがそれぞれのトライフォン状態に対応しているいくつかの確率に従って、このステップは、それぞれのトライフォンに対応する遷移確率を算出して、特性ベクトルがそれぞれのトライフォンに対応している確率を取得するべく、HMMモデルを使用している。
この計算プロセスは、実際には、対応する遷移確率がそれぞれのHMM上における連続的な特性ベクトルの伝播プロセスに従って算出されるプロセスである。以下、一例として、(三つの状態を有する)トライフォンの確率の算出との関連において、計算プロセスについて更に説明することとするが、この場合に、pe(i,j)は、j番目の状態におけるi番目のフレームの特性ベクトルの通過確率を表しており、且つ、pt(h,k)は、h状態からk状態への遷移確率を表している。
1)第一フレームの特性ベクトルは、対応するHMMの状態1に対応しており、且つ、通過確率pe(1,1)を有する。
2)第二フレームの特性ベクトルがHMMの状態1から状態2に遷移した場合には、対応する確率は、pe(1,1)*pt(1,1)*pe(2,1)であり、状態1から状態2へ遷移した場合には、対応する確率は、pe(1,1)*pt(1,2)*pe(2,2)であり、上述の確率に従って、それが状態1又は状態2へ遷移したのかどうかが判定される。
3)上述のものに類似した計算方法は、このHMMの連続的なフレームの特性ベクトルの確率を取得するべく、即ち、このHMMによって特徴付けられたトライフォンに対応する確率を取得するべく、状態3からの遷移の時点まで、且つ、このHMM上における伝播が終了する時点まで、第三フレームの特性ベクトル及び後続のフレームの特性ベクトルについて実行される。
連続的に入力される特性ベクトルの場合には、上述の方法は、それぞれのHMM上における伝播の遷移確率を算出するべく、且つ、次いで、それぞれのトライフォンに対応する確率を取得するべく、使用される。
ステップ104:特性ベクトルシーケンスに対応するワードシーケンスを取得するべく、入力として確率を使用することにより、サーチ空間内においてデコーディング動作を実行している。
デコーディング動作は、特性ベクトルシーケンスに対応するワードシーケンスを取得するべく、ステップ103からの出力としての、特性ベクトルがそれぞれのトライフォンに対応している確率に従って、WFSTネットワーク内において実行される。このプロセスは、通常、グラフサーチを実行すると共に最大スコアを有する経路を見出すサーチプロセスであってもよい。Viterbi アルゴリズムが、一般的なサーチ方法であり、且つ、動的な計画方法を使用することによって演算負荷を低減するという利点を有しており、且つ、時間同期型のデコーディングを実現することができる。
Viterbi アルゴリズムに伴う演算の量が、実際のデコーディングプロセスにおいては、巨大なサーチ空間に起因して、依然として非常に大きいことを考慮することにより、すべての可能な後続の経路がデコーディングプロセスにおいて生成されるわけではない。その代わりに、演算を低減するべく、且つ、演算速度を改善するべく、最適な経路に近接した経路のみが生成される。即ち、Viterbi アルゴリズムを使用することによってサーチするプロセスにおいては、サーチ効率を改善するべく、適切な間引き方式が使用されている。例えば、Viterbi 列アルゴリズム又はヒストグラム間引き方式を使用することができる。
この時点において、デコーディングを通じて、特性ベクトルシーケンスに対応するワードシーケンスが取得されており、即ち、認識対象の発話信号に対応する認識結果が取得されている。ステップ101において発話認識用のサーチ空間が構築される際に予め設定されたクライアント情報が追加されていることから、上述の発話認識プロセスは、通常、相対的に正確な方式により、クライアントのローカル情報に関係する発話コンテンツを認識することができる。
クライアントのローカル情報が、恐らくは、ユーザによって修正又は削除され得ることを考慮することにより、本実施形態は、上述のデコーディングプロセスを通じて得られるワードシーケンスの精度を更に保証するべく、予め設定されたクライアント情報との間においてテキストマッチングを実行することにより、ワードシーケンスの精度を検証し、且つ、検証結果に従って対応する発話認識結果を生成する、という好適な実装方式を更に提供している。
ある種の実装形態においては、上述の好ましい実装方式は、以下に列挙されているステップ104−1〜ステップ104−4を有することが可能であり、以下、図7を参照し、これについて更に説明することとする。
ステップ104−1:ワードシーケンスから、予め設定されたクライアント情報に対応する検証対象のワードを選択している。
例えば、電話をかけるアプリケーションの場合には、予め設定された主題クラスは、「連絡先名簿内の連絡先の名前」であり、且つ、発話認識結果は、「Xiao Ming に電話をかけなさい」というワードシーケンスである。次いで、テンプレートとのマッチングにより、或いは、構文分析プロセスを通じて、ワードシーケンス内の「Xiao Ming」が、予め設定されたクライアント情報に対応する検証対象のワードであると判定することができる。
ステップ104−2:予め設定されたクライアント情報内において検証対象のワードについてサーチし、検証対象のワードが見出された場合に、精度検証に合格したと判定し、且つ、ステップ104−3を実行し、さもなければ、ステップ104−4を実行している。
テキストレベルにおいて正確なマッチングを実行することにより、このステップは、検証対象のワードが、対応する予め設定されたクライアント情報に属しているかどうかを判定し、且つ、次いで、ワードシーケンスの精度を検証している。
ステップ104−1の例においては、このステップは、クライアントの連絡先名簿が「Xiao Ming」という名前の連絡先を有しているどうか、即ち、連絡先名簿内の連絡先の名前に関係する情報が「Xiao Ming」という文字ストリングを有しているかどうか、をサーチし、この文字ストリングが連絡先の名前内に含まれている場合に、精度検証に合格したと判定され、且つ、ステップ104−3が実行され、さもなければ、ステップ104−4が実行されている。
ステップ104−3:発話認識結果としてワードシーケンスを使用している。
このステップが実行される際には、これは、デコーディングを通じて得られたワードシーケンス内に含まれている検証対象のワードが、予め設定されたクライアント情報とマッチングしていることを示しており、且つ、ワードシーケンスを発話認識結果として出力することにより、対応する動作を実行するべく発話認識結果を使用するアプリケーションプログラムをトリガすることができる。
ステップ104−4:ピンインに基づいたファジーマッチングにより(ピンインは、中国語用の公的なローマ字化システムである)、ワードシーケンスを訂正し、且つ、訂正済みのワードシーケンスを発話認識結果として使用している。
このステップが実行される際には、これは、デコーディングを通じて取得されたワードシーケンス内に含まれている検証対象のワードが、予め設定されたクライアント情報とマッチングしていないことを示している。このワードシーケンスが発話認識結果として出力された場合には、関連するアプリケーションプログラムは、通常、正しい動作を実行することができなくなろう。従って、このケースにおいては、ピンインレベルにおけるファジーマッチングを通じて、必要な訂正をワードシーケンスに対して実施することができる。
ある種の実装形態においては、上述の訂正機能は、辞書をサーチすることにより、検証対象のワードを検証対象のピンインシーケンスに変換し、それぞれ、予め設定されたクライアント情報内のそれぞれのワードを比較ピンインシーケンスに変換し、次いで、検証対象のピンインシーケンスとそれぞれの比較ピンインシーケンスとの間の類似性の程度を順番に算出し、且つ、類似性の程度の下降順においてソートされた後に、予め設定されたクライアント情報から高位にランク付けされたワードを選択し、最後に、ワードシーケンス内において検証対象のワードを置換して訂正済みのワードシーケンスを取得するべく、選択されたワードを使用する、いう方式によって実現することができる。
ある種の実装形態においては、二つのピンインシーケンスの間の類似性の程度は、様々な方式によって算出することができる。本実施形態は、類似性の程度が編集距離に従って算出される方式を使用している。例えば、二つのピンインシーケンスの間の編集距離と1の合計の逆数が類似性の程度として使用される。編集距離は、一つの文字ストリングを別の文字ストリングに変換するために必要とされる編集動作の最小回数を意味しており、編集動作は、一つの文字を別の文字によって置換すること、文字を挿入すること、及び文字を削除することを有する。一般に、相対的に小さな編集距離は、相対的に大きな類似性の程度を意味している。
ステップ104−1の例においては、ワードシーケンスは、「Xiao Ming に電話をかけなさい」であり、且つ、検証対象のワードは、「Xiao Ming」である。「Xiao Ming」がクライアントの連絡先名簿内の連絡先において見出されない場合には、「Xiao Ming」は、辞書内においてサーチすることにより、検証対象のピンインシーケンス「xiaoming」に変換され、且つ、連絡先名簿内のすべての連絡先の名前が、対応するピンインシーケンスに、即ち、比較ピンインシーケンスに、変換され、次いで、「xiaoming」とそれぞれの比較ピンインシーケンスとの間の編集距離が、順番に算出され、且つ、最も短い編集距離(最も大きな類似性の程度)を有する比較ピンインシーケンスに対応する連絡先の名前(例えば、「xiamin」に対応する「Xiao Min」)が、ワードシーケンス内の検証対象のワードを置換するべく、選択され、これにより、ワードシーケンスに対する訂正が完了し、且つ、訂正済みのワードシーケンスを最終的な発話認識結果として使用することができる。
又、ある種の実装形態においては、まず、検証対象のピンインシーケンスとそれぞれの比較ピンインシーケンスとの間の類似性の程度を算出することが可能であり、且つ、次いで、下降順においてソートすることができる。ソートを通じて高位にランク付けされたいくつかの(例えば、三つの)比較ピンインシーケンスに対応するワードが選択され、且つ、次いで、ユーザが正しいワードをこれらから選択するように、これらのワードが、画面出力又はその他の方式を介して、クライアントユーザに対して提示される。次いで、ユーザによって選択されたワードに従って、ワードシーケンス内の検証対象のワードが置換される。
以上、上述のステップ101〜104を通じて、本出願による発話認識方法の特定の実装方式について詳細に説明した。理解を促進するべく、図8を参照することが可能であり、これは、本実施形態による発話認識の全体ブロックダイアグラムである。その内部の破線ブロックは、本実施形態において記述されている準備フェーズに対応しており、且つ、実線ブロックは、特定の発話認識プロセスに対応している。
本実施形態において記述されているステップ101は、相互作用媒体として発話を使用しているクライアントアプリケーションプログラムが起動されるたびに実行可能であることに留意されたい。即ち、予め設定されたクライアント情報を有する、且つ、発話信号をデコーディングするための、サーチ空間は、アプリケーションが起動されたるたびに、生成される。或いは、この代わりに、サーチ空間は、クライアントアプリケーションプログラムの最初の起動の際に生成し、且つ、次いで、保存することも可能であって、このサーチ空間は、後から定期的に更新することができる。この結果、クライアントアプリケーションプログラムが起動されるたびにサーチ空間を生成する時間を低減することが可能であり(予め生成されたサーチ空間を直接的に使用することができる)、従って、発話認識の精度及びユーザ経験を改善することができる。
これに加えて、本出願による方法は、通常、クライアント装置上において実装される。クライアント装置は、スマートモバイル端末、スマートスピーカ、ロボット、又は方法を実行する能力を有するその他の装置を有する。本実施形態は、本出願による方法がクライアント装置上において実装されるなんらかの実装方式について記述している。但し、その他の実装形態においては、本出願による方法は、クライアント及びサーバモードに基づいたアプリケーションシナリオにおいて実装することも可能である。このようなケースにおいては、準備フェーズにおいて生成されるすべてのWFST及び音響確率の計算用のモデルをクライアント装置内に予めインストールする必要はない。クライアントアプリケーションが起動されるたびに、対応する予め設定されたクライアント情報をサーバにアップロードすることが可能であり、且つ、後から収集された認識対象の発話信号も、サーバにアップロードされる。本出願による方法は、サーバサイドにおいて実装されており、且つ、デコーディングを通じて取得されたワードシーケンスは、クライアントに返されており、これにより、本出願の技術的解決策を実現することも可能であり、且つ、対応する有益な効果を実現することができる。
要すれば、発話信号をデコーディングするためのサーチ空間が生成された際に、予め設定されたクライアント情報がサーチ空間内に含まれていることから、本出願による発話認識方法は、クライアントによって収集された発話信号を認識する際に、相対的に正確な方式により、クライアントのローカル情報に関係する情報を認識することができる。この結果、発話認識の精度及びユーザ経験を改善することができる。
具体的には、本出願による方法は、発話認識のために、クライアント装置上において適用される。クライアントのローカルな情報の追加に起因して、確率モデル及びサーチ空間のサイズの低減によって生成される、認識精度が低下する、という問題点に特定の程度にまで対処することが可能であり、これにより、ネットワークアクセスを有していない環境における発話認識用の要件を充足することができると共に、特定の認識精度を実現することができる。更には、ワードシーケンスがデコーディングを通じて取得された後の、本実施形態において提供されているテキストレベル及びピンインレベルにおけるマッチング検証解決策の採用により、発話認識の精度を更に改善することができる。実際の試験結果は、従来の発話認識方法における文字誤り率(CER:Character Error Rate)が約20%であるのに対して、本出願の方法は、3%未満という文字誤り率を有することを示している。上述のデータは、この方法が非常に有利な効果を有することを十分に示している。
上述の実施形態においては、発話認識方法が提供されているが、これに対応する状態において、本出願は、発話認識装置を更に提供している。図9を参照すれば、本出願による発話認識装置が示されている。装置実施形態は、実質的に方法実施形態に類似していることから、その説明は、相対的に簡単である。すべての関係している部分は、方法実施形態のその部分の説明を参照することができる。後述する装置実施形態は、例示を目的としたものであるに過ぎない。
本実施形態による発話認識装置は、予め設定された発話知識ソースに基づいて、予め設定されたクライアント情報を有する、且つ、発話信号をデコーディングするための、サーチ空間を生成するように構成されたサーチ空間生成ユニット901と、認識対象の発話信号の特性ベクトルシーケンスを抽出するように構成された特性ベクトル抽出ユニット902と、特性ベクトルがサーチ空間のそれぞれの基本ユニットに対応している確率を算出するように構成された確率算出ユニット903と、特性ベクトルシーケンスに対応するワードシーケンスを取得するべく、確率を入力として使用することにより、サーチ空間内においてデコーディング動作を実行するように構成されたデコーディングサーチユニット904と、を有する。
任意選択により、サーチ空間生成ユニットは、トライフォン状態バンドリングリスト、辞書、及び言語モデルに基づいている単一のWFSTを取得するべく、ラベル置換により、予め設定された主題クラスに対応する予め設定されたクライアント情報を少なくとも言語モデルに基づいている予め生成されたWFSTに追加するように構成されており、言語モデルは、言語モデルトレーニングユニットによって予め生成されており、且つ、言語モデルトレーニングユニットは、言語モデルをトレーニングするためのテキスト内の予め設定された名前エンティティを予め設定された主題クラスに対応するラベルによって置換するように、且つ、言語モデルをトレーニングするべくテキストを使用するように、構成されている。
任意選択により、サーチ空間生成ユニットは、ラベル置換により、予め設定された主題クラスに対応する予め設定されたクライアント情報を言語モデルに基づいている予め生成されたWFSTに追加するように構成された第一クライアント情報追加サブユニットと、単一のWFSTを取得するべく、予め設定されたクライアント情報が追加されたWFSTをトライフォン状態バンドリングリスト及び辞書に基づいている予め生成されたWFSTと組み合わせるように構成されたWFST組合せサブユニットと、を有する。
任意選択により、サーチ空間生成ユニットは、ラベル置換により、予め設定された主題クラスに対応する予め設定されたクライアント情報を少なくとも言語モデルに基づいている予め生成されたWFSTに追加するように構成された第二クライアント情報追加サブユニットと、第二クライアント情報追加サブユニットが追加動作を完了した後に、トライフォン状態バンドリングリスト、辞書、及び言語モデルに基づいている単一のWFSTを取得するように構成された統合型のWFST取得サブユニットと、を有する。
ここで、第二クライアント情報追加サブユニットは、認識対象の発話信号が属する予め設定された主題クラスを判定するように構成された主題判定サブユニットと、予め設定された主題クラスに対応する、且つ、少なくとも言語モデルに基づいている、予め生成されたWFSTを選択するように構成されたWFST選択サブユニットと、対応するラベルを予め設定された主題クラスに対応する予め設定されたクライアント情報によって置換することにより、予め設定されたクライアント情報を選択されたWFSTに追加するように構成されたラベル置換サブユニットと、を有する。
任意選択により、主題判定サブユニットは、発話信号を収集するクライアント又はアプリケーションプログラムのタイプに従って、認識対象の発話信号が属する予め設定された主題クラスを判定するように構成されている。
任意選択により、WFST組合せサブユニットは、予測に基づいた方法を使用することにより、組合せ動作を実行するように、且つ、単一のWFSTを取得するように、構成されている。
任意選択により、確率算出ユニットは、特性ベクトルがそれぞれのトライフォン状態に対応している確率を算出するべく、予めトレーニングされたDNNモデルを使用するように構成されたトライフォン状態確率算出サブユニットと、特性ベクトルがそれぞれのトライフォン状態に対応している確率に従って特性ベクトルがそれぞれのトライフォンに対応している確率を算出するべく、予めトレーニングされたHMMモデルを使用するように構成されたトライフォン確率算出サブユニットと、を有する。
任意選択により、特性ベクトル抽出ユニットは、複数のオーディオフレームを取得するべく、予め設定されたフレーム長に従って、認識対象の発話信号に対してフレーム分割処理を実行するように構成されたフレーム分割サブユニットと、特性ベクトルシーケンスを取得するべく、それぞれのオーディオフレームの特性ベクトルを抽出するように構成された特性抽出サブユニットと、を有する。
任意選択により、装置は、デコーディングサーチユニットが特性ベクトルシーケンスに対応するワードシーケンスを取得した後に、予め設定されたクライアント情報との間においてテキストマッチングを実行することにより、ワードシーケンスの精度を検証するように、且つ、検証結果に従って対応する発話認識結果を生成するように、構成された精度検証ユニットを有する。
任意選択により、精度検証ユニットは、ワードシーケンスから、予め設定されたクライアント情報に対応する検証対象のワードを選択するように構成された検証対象ワード選択サブユニットと、予め設定されたクライアント情報内において検証対象のワードについてサーチするように構成されたサーチサブニットと、サーチサブユニットが検証対象のワードを見出した際に、精度検証に合格したと判定するように、且つ、ワードシーケンスを発話認識結果として使用するように、構成された認識結果判定サブユニットと、サーチサブユニットが検証対象のワードを見出さない際に、ピンインに基づいたファジーマッチングにより、ワードシーケンスを訂正するように、且つ、訂正済みのワードシーケンスを発話認識結果として使用するように、構成された認識結果訂正サブユニットと、を有する。
任意選択により、認識結果訂正サブユニットは、検証対象のワードを検証対象のピンインに変換するように構成された検証対象ピンインシーケンス変換サブユニットと、それぞれ、予め設定されたクライアント情報内のそれぞれのワードを比較ピンインシーケンスに変換するように構成された比較ピンインシーケンス変換サブユニットと、検証対象のピンインシーケンスとそれぞれの比較ピンインシーケンスとの間の類似性の程度を順番に算出するように、且つ、類似性の程度の下降順においてソートされた後に、予め設定されたクライアント情報から高位にランク付けされたワードを選択するように、構成された類似性の程度算出サブユニットと、ワードシーケンス内において検証対象のワードを置換して訂正済みのワードシーケンスを取得するべく、選択されたワードを使用するように構成された検証対象ワード置換サブユニットと、を有する。
更には、本出願は、別の発話認識方法を提供している。図10を参照すれば、本出願による例示用の発話認識方法のフローチャートが示されている。上述の方法実施形態と同一の内容を有する本実施形態の部分の説明は、省略することとする。以下の説明は、その相違点に合焦することとする。本出願による別の発話認識方法は、以下のステップを有する。
ステップ1001:デコーディングを通じて、認識対象の発話信号に対応するワードシーケンスを取得している。
発話認識の場合には、デコーディングプロセスは、認識対象の発話信号に対応する最適なワードシーケンスを取得するべく、発話認識用のサーチ空間内においてサーチするプロセスである。サーチ空間は、様々な知識ソースに基づいたWFSTネットワークであってもよく、或いは、その他の形態のサーチ空間であってもよく、サーチ空間は、予め設定されたクライアント情報を有していてもよく、或いは、そうでなくてもよく、これは、具体的には、本実施形態においては定義されていない。
ステップ1002:予め設定されたクライアント情報との間においてテキストマッチングを実行することにより、ワードシーケンスの精度を検証し、且つ、検証結果に従って対応する発話認識結果を生成している。
このステップは、ワードシーケンスから、予め設定されたクライアント情報に対応する検証対象のワードを選択するステップと、予め設定されたクライアント情報内において検証対象のワードについてサーチするステップと、検証対象のワードが見出された場合に、精度検証に合格したと判定し、且つ、ワードシーケンスを発話認識結果として使用するステップと、さもなければ、ピンインに基づいたファジーマッチングにより、ワードシーケンスを訂正し、且つ、訂正済みのワードシーケンスを発話認識結果として使用するステップと、という動作を有することができる。
ピンインに基づいたファジーマッチングによってワードシーケンスを訂正するステップは、検証対象のワードを検証対象のピンインシーケンスに変換するステップと、それぞれ、予め設定されたクライアント情報内のそれぞれのワードを比較ピンインシーケンスに変換するステップと、検証対象のピンインシーケンスとそれぞれの比較ピンインシーケンスとの間の類似性の程度を順番に算出し、且つ、類似性の程度の下降順においてソートされた後に、予め設定されたクライアント情報から高位にランク付けされたワードを選択するステップと、ワードシーケンス内において検証対象のワードを置換して訂正済みのワードシーケンスを取得するべく、選択されたワードを使用するステップと、を有することができる。
ここで、ピンインシーケンスに変換するステップは、辞書をサーチすることにより、実現することが可能であり、且つ、類似性の程度は、二つのピンインシーケンスの間の編集距離に従って算出することができる。
本出願による方法は、通常、発話を相互作用媒体として使用しているアプリケーションプログラムにおいて適用することができる。このタイプのアプリケーションプログラムによって収集された認識対象の発話は、クライアント情報を伴っていてもよく、本出願による方法は、ワードシーケンスと予め設定されたクライアント情報との間のテキストマッチングを実行することにより、デコーディングを通じて取得されたワードシーケンスの精度を検証することが可能であり、この結果、ワードシーケンスに必要な訂正を実施するためのエビデンスが提供される。更には、ワードシーケンスをピンインレベルにおいてファジーマッチングを通じて訂正することにより、発話認識の精度を改善することができる。
上述の実施形態においては、別の発話認識方法が提供されており、これに対応する状態において、本出願は、別の発話認識装置を更に提供している。図11を参照すれば、本出願による別の発話認識装置の一実施形態の概略図が示されている。装置実施形態は、実質的に方法実施形態に類似していることから、その説明は、相対的に簡単である。すべての関係する部分は、方法実施形態のその部分の説明を参照することができる。後述する装置実施形態は、例示を目的としたものであるに過ぎない。
本実施形態による発話認識装置は、デコーディングを通じて、認識対象の発話信号に対応するワードシーケンスを取得するように構成されたワードシーケンス取得ユニット1101と、予め設定されたクライアント情報との間においてテキストマッチングを実行することにより、ワードシーケンスの精度を検証するように、且つ、検証結果に従って対応する発話認識結果を生成するように、構成されたワードシーケンス検証ユニット1102と、を有する。
任意選択により、ワードシーケンス検証ユニットは、ワードシーケンスから、予め設定されたクライアント情報に対応する検証対象のワードを選択するように構成された検証対象ワード選択サブユニットと、予め設定されたクライアント情報内において検証対象のワードについてサーチするように構成されたサーチサブユニットと、サーチサブユニットが検証対象のワードを見出した際に、精度検証に合格したと判定するように、且つ、ワードシーケンスを発話認識結果として使用するように、構成された認識結果判定サブユニットと、サーチサブユニットが検証対象のワードを見出さない際に、ピンインに基づいたファジーマッチングにより、ワードシーケンスを訂正するように、且つ、訂正済みのワードシーケンスを発話認識結果として使用するように、構成された認識結果訂正サブユニットと、を有する。
任意選択により、認識結果訂正サブユニットは、検証対象のワードを検証対象のピンインシーケンスに変換するように構成された検証対象ピンインシーケンス変換サブユニットと、それぞれ、予め設定されたクライアント情報内のそれぞれのワードを比較ピンインシーケンスに変換するように構成された比較ピンインシーケンス変換サブユニットと、検証対象のピンインシーケンスとそれぞれの比較ピンインシーケンスとの間の類似性の程度を順番に算出するように、且つ、類似性の程度の下降順においてソートされた後に、予め設定されたクライアント情報から高位にランク付けされたワードを選択するように、構成された類似性の程度算出サブユニットと、ワードシーケンス内において検証対象のワードを置換して訂正済みのワードシーケンスを取得するべく、選択されたワードを使用するように構成された検証対象ワード置換サブユニットと、を有する。
本出願は、以上においては、好適な実施形態を通じて開示されているが、これらの好適な実施形態は、本出願を限定するべく使用されるものではない。当業者は、本出願の精神及び範囲を逸脱することなしに、可能な変形及び変更を実施することができる。従って、本出願の範囲には、本出願の請求項によって定義されている範囲が適用されることになる。
通常の構成においては、演算装置は、一つ又は複数のプロセッサ(CPU)と、入出力インターフェイスと、ネットワークインターフェイスと、メモリと、を含む。
メモリは、揮発性メモリ、ランダムアクセスメモリ(RAM:Random Access Memory)、並びに/或いは、例えば、読み出し専用メモリ(ROM:Read-Only Memory)又はフラッシュRAMなどの、不揮発性メモリなどの、コンピュータ可読メモリを含むことができる。メモリは、コンピュータ可読媒体の一例である。
1.コンピュータ可読媒体は、任意の方法又は技術を通じて情報ストレージを実装し得る、永久的な、揮発性の、可動型の、且つ、非可動型の、媒体を含む。情報は、コンピュータ可読命令、データ構造、プログラムモジュール、又はその他のデータであってもよい。コンピュータのストレージ媒体の例は、限定を伴うことなしに、演算装置からアクセス可能である情報を保存するべく使用され得る、相変化RAM(PRAM:Phase-Change RAM)、スタティックRAM(SRAM:Static RAM)、ダイナミックRAM(DRAM:Dynamic RAM)、その他のタイプのランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、電気的に消去可能なプログラム可能な読み出し専用メモリ(EEPROM:Erasable Programmable Read-Only Memory)、フラッシュメモリ又はその他のメモリ技術、コンパクトディスク読出し専用メモリ(CD−ROM:Compact Disk Read-Only Memory)、デジタルバーサタイルディスク(DVD:Digital Versatile Disc)又はその他の光メモリ、カセット、カセット及びディスクメモリ、或いは、その他の磁気メモリ装置又は任意のその他の非送信媒体を含む。本明細書における定義によれば、コンピュータ可読媒体は、変調されたデータ信号及び搬送波などの、一時的な媒体を含んではいない。
2.当業者は、本出願の実施形態は、方法、システム、又はコンピュータプログラムプロダクトとして提供され得ることを理解するであろう。従って、本出願は、完全なハードウェア実施形態、完全なソフトウェア実施形態、或いは、ソフトウェアとハードウェアとを組み合わせた実施形態を実装することができる。更には、本出願は、その内部にコンピュータ使用可能プログラムコードを有する(限定を伴うことなしに、磁気ディスクメモリ、CD−ROM、光メモリ、及びこれらに類似したものを含む)一つ又は複数のコンピュータ使用可能ストレージ媒体上において実装されたコンピュータプログラムプロダクトの形態を有することができる。

Claims (31)

  1. 発話認識方法であって、
    予め設定された発話知識ソースに基づいて、予め設定されたクライアント情報を有する、且つ、発話信号をデコーディングするための、サーチ空間を生成するステップであって、前記サーチ空間は、重み付き有限状態トランスデューサ(WFST)を有し、前記サーチ空間の基本ユニットは、文脈に依存するトライフォンを有し、且つ、前記予め設定された発話知識ソースは、辞書、言語モデル、及びトライフォン状態バンドリングリストを有し、前記サーチ空間を生成する前記ステップは、
    前記トライフォン状態バンドリングリスト、前記辞書、及び前記言語モデルに基づいている単一のWFSTを取得するべく、ラベル置換により、予め設定された主題クラスに対応する予め設定されたクライアント情報を少なくとも前記言語モデルに基づいている予め生成されたWFSTに追加するステップであって、前記言語モデルは、言語モデルをトレーニングするためのテキスト内の予め設定された名前エンティティを予め設定された主題クラスに対応するラベルによって置換し、且つ、前記言語モデルをトレーニングするべく前記テキストを使用する、という方式によって事前トレーニングを通じて取得される、ステップ、を有する、ステップと、
    認識対象の発話信号の特性ベクトルシーケンスを抽出するステップと、
    前記特性ベクトルが前記サーチ空間のそれぞれの基本ユニットに対応している確率を算出するステップと、
    前記特性ベクトルシーケンスに対応するワードシーケンスを取得するべく、前記確率を入力として使用することにより、前記サーチ空間内においてデコーディング動作を実行するステップと、
    を有する方法。
  2. 前記トライフォン状態バンドリングリスト、前記辞書、及び前記言語モデルに基づいている単一のWFSTを取得するべく、ラベル置換により、予め設定された主題クラスに対応する予め設定されたクライアント情報を少なくとも前記言語モデルに基づいている予め生成されたWFSTに追加する前記ステップは、
    前記ラベル置換により、前記予め設定された主題クラスに対応する前記予め設定されたクライアント情報を前記言語モデルに基づいている予め生成されたWFSTに追加するステップと、
    前記単一のWFSTを取得するべく、前記予め設定されたクライアント情報が追加された前記WFSTを前記トライフォン状態バンドリングリスト及び前記辞書に基づいている予め生成されたWFSTと組み合わせるステップと、
    を有する、請求項に記載の発話認識方法。
  3. 前記言語モデルをトレーニングするための前記テキストは、前記予め設定された主題クラスのテキストを意味している、請求項に記載の発話認識方法。
  4. 前記予め設定された主題クラスの数は、少なくとも二つであり、前記言語モデルの数及び少なくとも前記言語モデルに基づいている前記WFSTの数は、それぞれ、前記予め設定された主題クラスの前記数と同一であり、
    ラベル置換により、予め設定された主題クラスに対応する予め設定されたクライアント情報を少なくとも前記言語モデルに基づいている予め生成されたWFSTに追加する前記ステップは、
    前記認識対象の発話信号が属する予め設定された主題クラスを判定するステップと、
    前記予め設定された主題クラスに対応する、且つ、少なくとも前記言語モデルに基づいている、前記予め生成されたWFSTを選択するステップと、
    対応するラベルを前記予め設定された主題クラスに対応する予め設定されたクライアント情報によって置換することにより、前記予め設定されたクライアント情報を前記選択されたWFSTに追加するステップと、
    を有する、請求項に記載の発話認識方法。
  5. 前記認識対象の発話信号が属する予め設定された主題クラスを判定する前記ステップは、
    前記発話信号を収集するクライアント又はアプリケーションのタイプに従って、前記認識対象の発話信号が属する前記予め設定された主題クラスを判定する、
    という方式により、実現されている、請求項に記載の発話認識方法。
  6. 前記予め設定された主題クラスは、電話をかけること、テキストメッセージを送信すること、歌を演奏すること、又は命令を設定することを有し、且つ、
    前記対応する予め設定されたクライアント情報は、連絡先名簿内の連絡先の名前、歌ライブラリ内の歌の名前、又は命令セット内の命令を有する、
    請求項に記載の発話認識方法。
  7. 前記組合せ動作は、予測に基づいた方法を使用することにより、組み合わせるステップを有する、請求項に記載の発話認識方法。
  8. 前記言語モデルを事前トレーニングするべく使用されるワードリストは、前記辞書内に含まれているワードと一貫性を有する、請求項に記載の発話認識方法。
  9. 前記特性ベクトルが前記サーチ空間のそれぞれの基本ユニットに対応している確率を算出する前記ステップは、
    前記特性ベクトルがそれぞれのトライフォン状態に対応している確率を算出するべく、予めトレーニングされたDNN(Deep Neural Network)モデルを使用するステップと、
    前記特性ベクトルがそれぞれのトライフォン状態に対応している前記確率に従って前記特性ベクトルがそれぞれのトライフォンに対応している確率を算出するべく、予めトレーニングされたHMM(Hidden Markov Model)モデルを使用するステップと、
    を有する、請求項に記載の発話認識方法。
  10. 実行速度は、前記特性ベクトルが前記それぞれのトライフォン状態に対応している前記確率を算出するべく予めトレーニングされたDNNを使用するステップのために、ハードウェアプラットフォームによって提供されるデータ並列処理能力を使用する、という方式により、改善されている、請求項に記載の発話認識方法。
  11. 認識対象の発話信号の特性ベクトルシーケンスを抽出する前記ステップは、
    複数のオーディオフレームを取得するべく、予め設定されたフレーム長に従って認識対象の発話信号に対してフレーム分割処理を実行するステップと、
    前記特性ベクトルシーケンスを取得するべく、それぞれのオーディオフレームの特性ベクトルを抽出するステップと、
    を有する、請求項1〜10のいずれか一項に記載の発話認識方法。
  12. それぞれのオーディオフレームの特性ベクトルを抽出する前記ステップは、MFCC(Mel Frequency Cepstrum Coefficient)特性、PLP(Perceptual Linear Predictive)特性、又はLPC(Linear Predictive Coding)特性を抽出するステップを有する、請求項11に記載の発話認識方法。
  13. 前記特性ベクトルシーケンスに対応するワードシーケンスを取得した後に、
    前記予め設定されたクライアント情報との間においてテキストマッチングを実行することにより、前記ワードシーケンスの精度を検証し、且つ、前記検証の結果に従って対応する発話認識結果を生成する、
    という動作が実行されている、請求項1〜10のいずれか一項に記載の発話認識方法。
  14. 前記予め設定されたクライアント情報との間においてテキストマッチングを実行することにより、前記ワードシーケンスの前記精度を検証し、且つ、前記検証の結果に従って対応する発話認識結果を取得するステップは、
    前記ワードシーケンスから、前記予め設定されたクライアント情報に対応する検証対象のワードを選択するステップと、
    前記予め設定されたクライアント情報内において前記検証対象のワードをサーチするステップと、
    前記検証対象のワードが見出された場合に、前記精度検証に合格していると判定し、且つ、前記ワードシーケンスを前記発話認識結果として使用し、且つ、さもなければ、ピンインに基づいたファジーマッチングにより、前記ワードシーケンスを訂正し、且つ、前記訂正済みのワードシーケンスを前記発話認識結果として使用するステップと、
    を有する、請求項13に記載の発話認識方法。
  15. ピンインに基づいたファジーマッチングによって前記ワードシーケンスを訂正する前記ステップは、
    前記検証対象のワードを検証対象のピンインシーケンスに変換するステップと、
    それぞれ、前記予め設定されたクライアント情報内のそれぞれのワードを比較ピンインシーケンスに変換するステップと、
    前記検証対象のピンインシーケンスとそれぞれの比較ピンインシーケンスとの間の類似性の程度を順番に算出し、且つ、前記類似性の程度の下降順においてソートされた後に、前記予め設定されたクライアント情報から高位にランク付けされたワードを選択するステップと、
    前記ワードシーケンス内において前記検証対象のワードを置換して前記訂正済みのワードシーケンスを取得するべく、前記選択されたワードを使用するステップと、
    を有する、請求項14に記載の発話認識方法。
  16. 前記類似性の程度は、編集距離に従って算出された類似性の程度を有する、請求項15に記載の発話認識方法。
  17. 前記方法は、クライアント装置上において実装され、前記クライアント装置は、スマートモバイル端末、スマートスピーカ、又はロボットを有する、請求項1〜10のいずれか一項に記載の発話認識方法。
  18. 発話認識装置であって、
    予め設定された発話知識ソースに基づいて、予め設定されたクライアント情報を有する、且つ、発話信号をデコーディングするための、サーチ空間を生成するように構成されたサーチ空間生成ユニットと、
    認識対象の発話信号の特性ベクトルシーケンスを抽出するように構成された特性ベクトル抽出ユニットと、
    前記特性ベクトルが前記サーチ空間のそれぞれの基本ユニットに対応している確率を算出するように構成された確率算出ユニットと、
    前記特性ベクトルシーケンスに対応するワードシーケンスを取得するべく、前記確率を入力として使用することにより、前記サーチ空間内においてデコーディング動作を実行するように構成されたデコーディングサーチユニットと、
    ここで、前記サーチ空間生成ユニットは、ラベル置換により、トライフォン状態バンドリングリスト、辞書、及び言語モデルに基づいている単一のWFSTを取得するべく、予め設定された主題クラスに対応する予め設定されたクライアント情報を少なくとも前記言語モデルに基づいている予め生成されたWFSTに追加するように構成されており、
    言語モデルトレーニングユニットであって、前記言語モデルは、前記言語モデルトレーニングユニットによって予め生成され、且つ、前記言語モデルトレーニングユニットは、言語モデルをトレーニングするためのテキスト内の予め設定された名前エンティティを予め設定された主題クラスに対応するラベルによって置換するように、且つ、前記言語モデルをトレーニングするべく前記テキストを使用するように、構成されている、言語モデルトレーニングユニットと、
    を有する装置。
  19. 前記サーチ空間生成ユニットは、
    ラベル置換により、前記予め設定された主題クラスに対応する前記予め設定されたクライアント情報を前記言語モデルに基づいている予め生成されたWFSTに追加するように構成された第一クライアント情報追加サブユニットと、
    前記単一のWFSTを取得するべく、前記予め設定されたクライアント情報が追加された前記WFSTを前記トライフォン状態バンドリングリスト及び前記辞書に基づいている予め生成されたWFSTと組み合わせるように構成されたWFST組合せサブユニットと、
    を有する、請求項18に記載の発話認識装置。
  20. 前記サーチ空間生成ユニットは、
    ラベル置換により、予め設定された主題クラスに対応する予め設定されたクライアント情報を少なくとも前記言語モデルに基づいている予め生成されたWFSTに追加するように構成された第二クライアント情報追加サブユニットと、
    前記第二クライアント情報追加サブユニットが前記追加動作を完了した後に、前記トライフォン状態バンドリングリスト、前記辞書、及び前記言語モデルに基づいている単一のWFSTを取得するように構成された統合型のWFST取得サブユニットと、
    を有し、且つ、
    前記第二クライアント情報追加サブユニットは、
    前記認識対象の発話信号が属する予め設定された主題クラスを判定するように構成された主題判定サブユニットと、
    前記予め設定された主題クラスに対応する、且つ、少なくとも前記言語モデルに基づいている、前記予め生成されたWFSTを選択するように構成されたWFST選択サブユニットと、
    対応するラベルを前記予め設定された主題クラスに対応する予め設定されたクライアント情報によって置換することにより、前記予め設定されたクライアント情報を前記選択されたWFSTに追加するように構成されたラベル置換サブユニットと、
    を有する、請求項18に記載の発話認識装置。
  21. 前記主題判定サブユニットは、前記発話信号を収集する前記クライアント又はアプリケーションプログラムのタイプに従って、前記認識対象の発話信号が属する前記予め設定された主題クラスを判定するように構成されている、請求項20に記載の発話認識装置。
  22. 前記WFST組合せサブユニットは、予測に基づいた方法を使用することにより、前記組合せ動作を実行するように、且つ、前記単一のWFSTを取得するように、構成されている、請求項19に記載の発話認識装置。
  23. 前記確率算出ユニットは、
    前記特性ベクトルがそれぞれのトライフォン状態に対応している確率を算出するべく、予めトレーニングされたDNN(Deep Neural Network)モデルを使用するように構成されたトライフォン状態確率算出サブユニットと、
    前記特性ベクトルがそれぞれのトライフォン状態に対応している前記確率に従って前記特性ベクトルがそれぞれのトライフォンに対応している確率を算出するべく、予めトレーニングされたHMM(Hidden Markov Model)モデルを使用するように構成されたトライフォン確率算出サブユニットと、
    を有する、請求項18に記載の発話認識装置。
  24. 前記特性ベクトル抽出ユニットは、
    複数のオーディオフレームを取得するべく、予め設定されたフレーム長に従ってフレーム分割処理を前記認識対象の発話信号に対して実行するように構成されたフレーム分割サブユニットと、
    前記特性ベクトルシーケンスを取得するべく前記それぞれのオーディオフレームの特性ベクトルを抽出するように構成された特性抽出サブユニットと、
    を有する、請求項1823のいずれか一項に記載の発話認識装置。
  25. 前記デコーディングサーチユニットが前記特性ベクトルシーケンスに対応するワードシーケンスを取得した後に、前記予め設定されたクライアント情報との間においてテキストマッチングを実行することにより、前記ワードシーケンスの精度を検証するように、且つ、前記検証の結果に従って対応する発話認識結果を生成するように、構成された精度検証ユニット、
    を有する、請求項1823のいずれか一項に記載の発話認識装置。
  26. 前記精度検証ユニットは、
    前記ワードシーケンスから前記予め設定されたクライアント情報に対応する検証対象のワードを選択するように構成された検証対象ワード選択サブユニットと、
    前記予め設定されたクライアント情報内において前記検証対象のワードについてサーチするように構成されたサーチサブユニットと、
    前記サーチサブユニットが前記検証対象のワードを見出した際に、前記精度検証に合格したと判定するように、且つ、前記ワードシーケンスを前記発話認識結果として使用するように、構成された認識結果判定サブユニットと、
    前記サーチサブユニットが前記検証対象のワードを見出さない際に、ピンインに基づいたファジーマッチングにより、前記ワードシーケンスを訂正するように、且つ、前記訂正済みのワードシーケンスを前記発話認識結果として使用するように、構成された認識結果訂正サブユニットと、
    を有する、請求項25に記載の発話認識装置。
  27. 前記認識結果訂正サブユニットは、
    前記検証対象のワードを検証対象のピンインシーケンスに変換するように構成された検証対象ピンインシーケンス変換サブユニットと、
    それぞれ、前記予め設定されたクライアント情報内のそれぞれのワードを比較ピンインシーケンスに変換するように構成された比較ピンインシーケンス変換サブユニットと、
    前記検証対象のピンインシーケンスとそれぞれの比較ピンインシーケンスとの間の類似性の程度を順番に算出するように、且つ、前記類似性の前記程度の下降順においてソートされた後に、前記予め設定されたクライアント情報から高位にランク付けされたワードを選択するように、構成された類似性の程度算出サブユニットと、
    前記ワードシーケンス内において前記検証対象のワードを置換して前記訂正済みのワードシーケンスを取得するべく、前記選択されたワードを使用するように構成された検証対象ワード置換サブユニットと、
    を有する、請求項26に記載の発話認識装置。
  28. 発話認識方法であって、
    デコーディングを通じて、認識対象の発話信号に対応するワードシーケンスを取得するステップと、
    予め設定されたクライアント情報との間においてテキストマッチングを実行することにより、前記ワードシーケンスの精度を検証し、且つ、前記検証の結果に従って対応する発話認識結果を生成するステップであって、前記予め設定されたクライアント情報との間においてテキストマッチングを実行することにより、前記ワードシーケンスの前記精度を検証し、且つ、前記検証の結果に従って対応する発話認識結果を生成するステップは、
    前記予め設定されたクライアント情報に対応する検証対象のワードを前記ワードシーケンスから選択するステップと、
    前記予め設定されたクライアント情報内において前記検証対象のワードについてサーチするステップと、
    前記検証対象のワードが見出された場合に、前記精度検証に合格したと判定し、且つ、前記ワードシーケンスを前記発話認識結果として使用し、且つ、さもなければ、ピンインに基づいたファジーマッチングにより、前記ワードシーケンスを訂正し、且つ、前記訂正済みのワードシーケンスを前記発話認識結果として使用するステップと、
    を有する、ステップ、と、
    を有する方法。
  29. ピンインに基づいたファジーマッチングにより、前記ワードシーケンスを訂正する前記ステップは、
    前記検証対象のワードを検証対象のピンインシーケンスに変換するステップと、
    それぞれ、前記予め設定されたクライアント情報内のそれぞれのワードを比較ピンインシーケンスに変換するステップと、
    前記検証対象のピンインシーケンスとそれぞれの比較ピンインシーケンスとの間の類似性の程度を順番に算出し、且つ、前記類似性の程度の下降順においてソートされた後に、前記予め設定されたクライアント情報から高位にランク付けされたワードを選択するステップと、
    前記ワードシーケンス内において前記検証対象のワードを置換して前記訂正済みのワードシーケンスを取得するべく、前記選択されたワードを使用するステップと、
    を有する、請求項28に記載の発話認識方法。
  30. 発話認識装置であって、
    デコーディングを通じて、認識対象の発話信号に対応するワードシーケンスを取得するように構成されたワードシーケンス取得ユニットと、
    予め設定されたクライアント情報との間においてテキストマッチングを実行することにより、前記ワードシーケンスの精度を検証するように、且つ、前記検証の結果に従って対応する発話認識結果を生成するように、構成されたワードシーケンス検証ユニットであって、前記ワードシーケンス検証ユニットは、
    前記予め設定されたクライアント情報に対応する検証対象のワードを前記ワードシーケンスから選択するように構成された検証対象ワード選択サブユニットと、
    前記予め設定されたクライアント情報内において前記検証対象のワードについてサーチするように構成されたサーチサブユニットと、
    前記サーチサブユニットが前記検証対象のワードを見出した際に、前記精度検証に合格したと判定するように、且つ、前記ワードシーケンスを前記発話認識結果として使用するように、構成された認識結果判定サブユニットと、
    前記サーチサブユニットが前記検証対象のワードを見出さない際に、ピンインに基づいたファジーマッチングにより、前記ワードシーケンスを訂正するように、且つ、前記訂正済みのワードシーケンスを前記発話認識結果として使用するように、構成された認識結果訂正サブユニットと、
    を有する、ワードシーケンス検証ユニットと、
    を有する装置。
  31. 前記認識結果訂正サブユニットは、
    前記検証対象のワードを検証対象のピンインシーケンスに変換するように構成された検証対象のピンインシーケンス変換サブユニットと、
    それぞれ、前記予め設定されたクライアント情報内のそれぞれのワードを比較ピンインシーケンスに変換するように構成された比較ピンインシーケンス変換サブユニットと、
    前記検証対象のピンインシーケンスとそれぞれの比較ピンインシーケンスとの間の類似性の程度を順番に算出するように、且つ、前記類似性の程度の下降順においてソートされた後に、前記予め設定されたクライアント情報から高位にランク付けされたワードを選択するように、構成された類似性の程度算出サブユニットと、
    前記ワードシーケンス内において前記検証対象のワードを置換して前記訂正済みのワードシーケンスを取得するべく、前記選択されたワードを使用するように構成された検証対象ワード置換サブユニットと、
    を有する、請求項30に記載の発話認識装置。
JP2018541475A 2015-11-06 2016-10-28 発話認識方法及び装置 Active JP6686154B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201510752397.4A CN106683677B (zh) 2015-11-06 2015-11-06 语音识别方法及装置
CN201510752397.4 2015-11-06
PCT/CN2016/103691 WO2017076222A1 (zh) 2015-11-06 2016-10-28 语音识别方法及装置

Publications (2)

Publication Number Publication Date
JP2018536905A JP2018536905A (ja) 2018-12-13
JP6686154B2 true JP6686154B2 (ja) 2020-04-22

Family

ID=58661629

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018541475A Active JP6686154B2 (ja) 2015-11-06 2016-10-28 発話認識方法及び装置

Country Status (5)

Country Link
US (2) US10741170B2 (ja)
EP (1) EP3373293B1 (ja)
JP (1) JP6686154B2 (ja)
CN (1) CN106683677B (ja)
WO (1) WO2017076222A1 (ja)

Families Citing this family (55)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106683677B (zh) * 2015-11-06 2021-11-12 阿里巴巴集团控股有限公司 语音识别方法及装置
CN105933323B (zh) * 2016-06-01 2019-05-31 百度在线网络技术(北京)有限公司 声纹注册、认证方法及装置
CN107103903B (zh) * 2017-05-05 2020-05-29 百度在线网络技术(北京)有限公司 基于人工智能的声学模型训练方法、装置及存储介质
CN107247750A (zh) * 2017-05-26 2017-10-13 深圳千尘计算机技术有限公司 人工智能交互方法及系统
CN107240395B (zh) * 2017-06-16 2020-04-28 百度在线网络技术(北京)有限公司 一种声学模型训练方法和装置、计算机设备、存储介质
CN107437417B (zh) * 2017-08-02 2020-02-14 中国科学院自动化研究所 基于循环神经网络语音识别中语音数据增强方法及装置
CN107707745A (zh) * 2017-09-25 2018-02-16 百度在线网络技术(北京)有限公司 用于提取信息的方法和装置
CN107871499B (zh) * 2017-10-27 2020-06-16 珠海市杰理科技股份有限公司 语音识别方法、系统、计算机设备及计算机可读存储介质
CN107911386B (zh) * 2017-12-06 2020-12-04 北京小米移动软件有限公司 获取服务授权信息的方法及装置
CN108091327A (zh) * 2018-02-22 2018-05-29 成都启英泰伦科技有限公司 一种智能语音设备控制方法
CN110188338B (zh) * 2018-02-23 2023-02-21 富士通株式会社 文本相关的说话人确认方法和设备
CN108549637A (zh) * 2018-04-19 2018-09-18 京东方科技集团股份有限公司 基于拼音的语义识别方法、装置以及人机对话系统
CN109036391B (zh) * 2018-06-26 2021-02-05 华为技术有限公司 语音识别方法、装置及系统
CN110797008B (zh) * 2018-07-16 2024-03-29 阿里巴巴集团控股有限公司 一种远场语音识别方法、语音识别模型训练方法和服务器
CN109064789A (zh) * 2018-08-17 2018-12-21 重庆第二师范学院 一种伴随脑瘫性口齿不清辅助控制系统及方法、辅助器
CN109274845A (zh) * 2018-08-31 2019-01-25 平安科技(深圳)有限公司 智能语音自动回访方法、装置、计算机设备及存储介质
CN109376288B (zh) * 2018-09-28 2021-04-23 邦道科技有限公司 一种实现语义搜索的云计算平台及其均衡方法
CN110970032A (zh) * 2018-09-28 2020-04-07 深圳市冠旭电子股份有限公司 一种音箱语音交互控制的方法及装置
CN110176230B (zh) * 2018-12-11 2021-10-08 腾讯科技(深圳)有限公司 一种语音识别方法、装置、设备和存储介质
CN111402887A (zh) * 2018-12-17 2020-07-10 北京未来媒体科技股份有限公司 一种语音转义文字的方法及装置
CN109461438B (zh) * 2018-12-19 2022-06-14 合肥讯飞数码科技有限公司 一种语音识别方法、装置、设备及存储介质
CN109920309B (zh) * 2019-01-16 2023-02-03 深圳壹账通智能科技有限公司 手语转换方法、装置、存储介质和终端
CN111508497B (zh) * 2019-01-30 2023-09-26 北京猎户星空科技有限公司 语音识别方法、装置、电子设备及存储介质
CN111862985A (zh) * 2019-05-17 2020-10-30 北京嘀嘀无限科技发展有限公司 一种语音识别装置、方法、电子设备及存储介质
CN112151020A (zh) * 2019-06-28 2020-12-29 北京声智科技有限公司 语音识别方法、装置、电子设备及存储介质
US11074909B2 (en) 2019-06-28 2021-07-27 Samsung Electronics Co., Ltd. Device for recognizing speech input from user and operating method thereof
CN112259089A (zh) * 2019-07-04 2021-01-22 阿里巴巴集团控股有限公司 语音识别方法及装置
CN110457684A (zh) * 2019-07-15 2019-11-15 广州九四智能科技有限公司 智能电话客服的语义分析方法
CN110688833B (zh) * 2019-09-16 2022-12-02 苏州创意云网络科技有限公司 文本校正方法、装置和设备
CN110717327B (zh) * 2019-09-29 2023-12-29 北京百度网讯科技有限公司 标题生成方法、装置、电子设备和存储介质
CN110738988A (zh) * 2019-10-24 2020-01-31 上海海事大学 一种基于维特比算法的花洒语音识别系统及方法
CN111028834B (zh) * 2019-10-30 2023-01-20 蚂蚁财富(上海)金融信息服务有限公司 语音信息提醒方法、装置、服务器和语音信息提醒设备
CN110827815B (zh) * 2019-11-07 2022-07-15 深圳传音控股股份有限公司 一种语音识别方法、终端、系统以及计算机存储介质
CN110992931B (zh) * 2019-12-18 2022-07-26 广东睿住智能科技有限公司 一种基于d2d技术的离线式语音控制方法、系统及存储介质
CN110942775B (zh) * 2019-12-20 2022-07-01 北京欧珀通信有限公司 数据处理方法、装置、电子设备及存储介质
CN111161707B (zh) * 2020-02-12 2020-12-22 龙马智芯(珠海横琴)科技有限公司 一种自动补充质检关键词表的方法、电子设备和存储介质
CN111415655B (zh) * 2020-02-12 2024-04-12 北京声智科技有限公司 语言模型构建方法、装置及存储介质
CN111862967A (zh) * 2020-04-07 2020-10-30 北京嘀嘀无限科技发展有限公司 一种语音识别方法、装置、电子设备及存储介质
CN111613219B (zh) * 2020-05-15 2023-10-27 深圳前海微众银行股份有限公司 语音数据识别方法、设备及介质
CN111539653A (zh) * 2020-05-27 2020-08-14 山西东易园智能家居科技有限公司 一种智能填充施工进度管理方法
CN111883109B (zh) * 2020-07-01 2023-09-26 北京猎户星空科技有限公司 语音信息处理及验证模型训练方法、装置、设备及介质
CN111508501B (zh) * 2020-07-02 2020-09-29 成都晓多科技有限公司 一种电话机器人中带口音的语音识别方法及系统
CN111862958B (zh) * 2020-08-07 2024-04-02 广州视琨电子科技有限公司 发音插入错误检测方法、装置、电子设备及存储介质
CN114697717A (zh) * 2020-12-28 2022-07-01 深圳Tcl新技术有限公司 一种文本输入方法和终端设备
CN112820281B (zh) * 2020-12-31 2022-09-23 北京声智科技有限公司 一种语音识别方法、装置及设备
CN112445934B (zh) * 2021-02-01 2021-04-20 北京远鉴信息技术有限公司 语音检索方法、装置、设备及存储介质
KR20220135039A (ko) * 2021-03-29 2022-10-06 삼성전자주식회사 전자 장치 및 이를 이용한 음성 인식 수행 방법
CN113051923B (zh) * 2021-04-22 2023-03-21 平安普惠企业管理有限公司 数据验证方法、装置、计算机设备和存储介质
CN113326279A (zh) 2021-05-27 2021-08-31 阿波罗智联(北京)科技有限公司 语音搜索方法和装置、电子设备、计算机可读介质
CN113421587B (zh) * 2021-06-02 2023-10-13 网易有道信息技术(北京)有限公司 语音评测的方法、装置、计算设备及存储介质
CN113932518B (zh) * 2021-06-02 2023-08-18 海信冰箱有限公司 冰箱及其食材管理方法
CN113362812B (zh) * 2021-06-30 2024-02-13 北京搜狗科技发展有限公司 一种语音识别方法、装置和电子设备
CN113506561B (zh) * 2021-07-28 2023-07-11 北京读我网络技术有限公司 文本拼音的转换方法及装置、存储介质及电子设备
TWI779982B (zh) * 2022-01-04 2022-10-01 中華電信股份有限公司 改善語音辨識模型的方法和電子裝置
CN114783419B (zh) * 2022-06-21 2022-09-27 深圳市友杰智新科技有限公司 结合先验知识的文本识别方法、装置、计算机设备

Family Cites Families (65)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6278973B1 (en) * 1995-12-12 2001-08-21 Lucent Technologies, Inc. On-demand language processing system and method
US6076056A (en) 1997-09-19 2000-06-13 Microsoft Corporation Speech recognition system for recognizing continuous and isolated speech
US7043422B2 (en) 2000-10-13 2006-05-09 Microsoft Corporation Method and apparatus for distribution-based language model adaptation
US20020138274A1 (en) * 2001-03-26 2002-09-26 Sharma Sangita R. Server based adaption of acoustic models for client-based speech systems
JP3961780B2 (ja) * 2001-05-15 2007-08-22 三菱電機株式会社 言語モデル学習装置およびそれを用いた音声認識装置
US6839667B2 (en) 2001-05-16 2005-01-04 International Business Machines Corporation Method of speech recognition by presenting N-best word candidates
US8290774B1 (en) * 2001-07-20 2012-10-16 At&T Intellectual Property Ii, L.P. System and method of epsilon removal of weighted automata and transducers
US7072880B2 (en) * 2002-08-13 2006-07-04 Xerox Corporation Information retrieval and encoding via substring-number mapping
US7062436B1 (en) 2003-02-11 2006-06-13 Microsoft Corporation Word-specific acoustic models in a speech recognition system
US7292976B1 (en) 2003-05-29 2007-11-06 At&T Corp. Active learning process for spoken dialog systems
US7720683B1 (en) 2003-06-13 2010-05-18 Sensory, Inc. Method and apparatus of specifying and performing speech recognition operations
US7464031B2 (en) 2003-11-28 2008-12-09 International Business Machines Corporation Speech recognition utilizing multitude of speech features
US8019602B2 (en) 2004-01-20 2011-09-13 Microsoft Corporation Automatic speech recognition learning using user corrections
JP2005283972A (ja) * 2004-03-30 2005-10-13 Advanced Media Inc 音声認識方法及びこの音声認識方法を利用した情報提示方法と情報提示装置
US7869999B2 (en) 2004-08-11 2011-01-11 Nuance Communications, Inc. Systems and methods for selecting from multiple phonectic transcriptions for text-to-speech synthesis
US8706475B2 (en) * 2005-01-10 2014-04-22 Xerox Corporation Method and apparatus for detecting a table of contents and reference determination
US8818808B2 (en) 2005-02-23 2014-08-26 At&T Intellectual Property Ii, L.P. Unsupervised and active learning in automatic speech recognition for call classification
US7693713B2 (en) 2005-06-17 2010-04-06 Microsoft Corporation Speech models generated using competitive training, asymmetric training, and data boosting
CN1979638A (zh) * 2005-12-02 2007-06-13 中国科学院自动化研究所 一种语音识别结果纠错方法
US8195462B2 (en) * 2006-02-16 2012-06-05 At&T Intellectual Property Ii, L.P. System and method for providing large vocabulary speech processing based on fixed-point arithmetic
CN101034390A (zh) 2006-03-10 2007-09-12 日电(中国)有限公司 用于语言模型切换和自适应的装置和方法
US20070239455A1 (en) 2006-04-07 2007-10-11 Motorola, Inc. Method and system for managing pronunciation dictionaries in a speech application
US20080154600A1 (en) 2006-12-21 2008-06-26 Nokia Corporation System, Method, Apparatus and Computer Program Product for Providing Dynamic Vocabulary Prediction for Speech Recognition
CN101017428A (zh) * 2006-12-22 2007-08-15 广东电子工业研究院有限公司 一种嵌入式语音交互装置及交互方法
CN101320561A (zh) * 2007-06-05 2008-12-10 赛微科技股份有限公司 提升个人语音识别率的方法及模块
US8275615B2 (en) 2007-07-13 2012-09-25 International Business Machines Corporation Model weighting, selection and hypotheses combination for automatic speech recognition and machine translation
GB2453366B (en) 2007-10-04 2011-04-06 Toshiba Res Europ Ltd Automatic speech recognition method and apparatus
US20090125307A1 (en) * 2007-11-09 2009-05-14 Jui-Chang Wang System and a method for providing each user at multiple devices with speaker-dependent speech recognition engines via networks
CN101499277B (zh) * 2008-07-25 2011-05-04 中国科学院计算技术研究所 一种服务智能导航方法和系统
US8131545B1 (en) * 2008-09-25 2012-03-06 Google Inc. Aligning a transcript to audio data
CN101464896B (zh) * 2009-01-23 2010-08-11 安徽科大讯飞信息科技股份有限公司 语音模糊检索方法及装置
CN101510222B (zh) * 2009-02-20 2012-05-30 北京大学 一种多层索引语音文档检索方法
US9135249B2 (en) * 2009-05-29 2015-09-15 Xerox Corporation Number sequences detection systems and methods
US8332754B2 (en) * 2009-11-04 2012-12-11 International Business Machines Corporation Rendering sections of content in a document
US8719023B2 (en) 2010-05-21 2014-05-06 Sony Computer Entertainment Inc. Robustness to environmental changes of a context dependent speech recognizer
US8914288B2 (en) 2011-09-01 2014-12-16 At&T Intellectual Property I, L.P. System and method for advanced turn-taking for interactive spoken dialog systems
US9640175B2 (en) 2011-10-07 2017-05-02 Microsoft Technology Licensing, Llc Pronunciation learning from user correction
CN102402983A (zh) * 2011-11-25 2012-04-04 浪潮电子信息产业股份有限公司 一种云数据中心语音识别方法
CN103188408A (zh) * 2011-12-29 2013-07-03 上海博泰悦臻电子设备制造有限公司 语音自动应答云端服务器、系统及方法
CN102629246B (zh) * 2012-02-10 2017-06-27 百纳(武汉)信息技术有限公司 识别浏览器语音命令的服务器及浏览器语音命令识别方法
JP5881157B2 (ja) * 2012-02-22 2016-03-09 国立研究開発法人情報通信研究機構 情報処理装置、およびプログラム
CN102722525A (zh) * 2012-05-15 2012-10-10 北京百度网讯科技有限公司 通讯录人名的语言模型建立方法、语音搜索方法及其系统
KR101394253B1 (ko) * 2012-05-16 2014-05-13 광주과학기술원 음성 인식 오류 보정 장치
US8805684B1 (en) * 2012-05-31 2014-08-12 Google Inc. Distributed speaker adaptation
US8442821B1 (en) 2012-07-27 2013-05-14 Google Inc. Multi-frame prediction for hybrid neural network/hidden Markov models
US8972243B1 (en) * 2012-11-20 2015-03-03 Amazon Technologies, Inc. Parse information encoding in a finite state transducer
CN103903619B (zh) * 2012-12-28 2016-12-28 科大讯飞股份有限公司 一种提高语音识别准确率的方法及系统
CN103065630B (zh) * 2012-12-28 2015-01-07 科大讯飞股份有限公司 用户个性化信息语音识别方法及系统
CN105027197B (zh) * 2013-03-15 2018-12-14 苹果公司 训练至少部分语音命令系统
CN103281425A (zh) * 2013-04-25 2013-09-04 广东欧珀移动通信有限公司 一种通过通话声音分析联系人的方法及装置
US9396724B2 (en) * 2013-05-29 2016-07-19 Tencent Technology (Shenzhen) Company Limited Method and apparatus for building a language model
CN104238991B (zh) * 2013-06-21 2018-05-25 腾讯科技(深圳)有限公司 语音输入匹配方法及装置
CN103325370B (zh) * 2013-07-01 2015-11-25 百度在线网络技术(北京)有限公司 语音识别方法和语音识别系统
JP5701348B2 (ja) * 2013-08-23 2015-04-15 ヤフー株式会社 音声認識装置、音声認識方法、およびプログラム
KR102274317B1 (ko) * 2013-10-08 2021-07-07 삼성전자주식회사 디바이스 정보에 기초하여 음성 인식을 수행하는 방법 및 장치
US20150121204A1 (en) * 2013-10-28 2015-04-30 Kobo Incorporated Method and system for a visual indicator a displayed page enablement for guided reading
JP5875569B2 (ja) * 2013-10-31 2016-03-02 日本電信電話株式会社 音声認識装置とその方法とプログラムとその記録媒体
JP6193726B2 (ja) * 2013-10-31 2017-09-06 日本電信電話株式会社 音声認識用wfst作成装置と音声認識装置とそれらの方法とプログラムと記録媒体
JP5777178B2 (ja) * 2013-11-27 2015-09-09 国立研究開発法人情報通信研究機構 統計的音響モデルの適応方法、統計的音響モデルの適応に適した音響モデルの学習方法、ディープ・ニューラル・ネットワークを構築するためのパラメータを記憶した記憶媒体、及び統計的音響モデルの適応を行なうためのコンピュータプログラム
CN103794214A (zh) * 2014-03-07 2014-05-14 联想(北京)有限公司 一种信息处理方法、装置和电子设备
CN104008132B (zh) * 2014-05-04 2018-09-25 深圳市北科瑞声科技股份有限公司 语音地图搜索方法及系统
CN104064182A (zh) * 2014-06-24 2014-09-24 中国人民财产保险股份有限公司 一种基于分类规则的语音识别系统及方法
CN104538031B (zh) * 2014-12-15 2017-09-01 北京云知声信息技术有限公司 智能语音服务开发云平台及方法
US9672265B2 (en) * 2015-02-06 2017-06-06 Atlassian Pty Ltd Systems and methods for generating an edit script
CN106683677B (zh) * 2015-11-06 2021-11-12 阿里巴巴集团控股有限公司 语音识别方法及装置

Also Published As

Publication number Publication date
US10741170B2 (en) 2020-08-11
US11664020B2 (en) 2023-05-30
CN106683677B (zh) 2021-11-12
JP2018536905A (ja) 2018-12-13
US20180254036A1 (en) 2018-09-06
CN106683677A (zh) 2017-05-17
WO2017076222A1 (zh) 2017-05-11
US20200320977A1 (en) 2020-10-08
EP3373293A4 (en) 2019-06-26
EP3373293B1 (en) 2022-12-28
EP3373293A1 (en) 2018-09-12

Similar Documents

Publication Publication Date Title
JP6686154B2 (ja) 発話認識方法及び装置
US11158305B2 (en) Online verification of custom wake word
US11132992B2 (en) On-device custom wake word detection
US10878807B2 (en) System and method for implementing a vocal user interface by combining a speech to text system and a speech to intent system
US9697827B1 (en) Error reduction in speech processing
JP5072206B2 (ja) 音声分類および音声認識のための隠れ条件付確率場モデル
KR100845428B1 (ko) 휴대용 단말기의 음성 인식 시스템
US10381000B1 (en) Compressed finite state transducers for automatic speech recognition
US7447633B2 (en) Method and apparatus for training a text independent speaker recognition system using speech data with text labels
JP2017513047A (ja) 音声認識における発音予測
CN112331206A (zh) 语音识别方法及设备
EP1385147A2 (en) Method of speech recognition using time-dependent interpolation and hidden dynamic value classes
JPH09127978A (ja) 音声認識方法及び装置及びコンピュータ制御装置
JP2004226982A (ja) 隠れ軌跡隠れマルコフモデルを使用した音声認識の方法
JP2020042257A (ja) 音声認識方法及び装置
JP5688761B2 (ja) 音響モデル学習装置、および音響モデル学習方法
TWI731921B (zh) 語音識別方法及裝置
JP6546070B2 (ja) 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法、およびプログラム
CN111816164A (zh) 用于语音识别的方法及设备
Qiu et al. Context-aware neural confidence estimation for rare word speech recognition
KR20210052563A (ko) 문맥 기반의 음성인식 서비스를 제공하기 위한 방법 및 장치
WO2021106047A1 (ja) 検知装置、その方法、およびプログラム
KR20230064466A (ko) 음성 인식 방법 및 장치
KR20240000474A (ko) 신경망에 기반하는 키워드 스포팅 방법

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180620

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190404

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190507

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190807

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200204

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20200305

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200401

R150 Certificate of patent or registration of utility model

Ref document number: 6686154

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250