JP2020518861A - 音声認識方法、装置、デバイス、及び記憶媒体 - Google Patents

音声認識方法、装置、デバイス、及び記憶媒体 Download PDF

Info

Publication number
JP2020518861A
JP2020518861A JP2019560155A JP2019560155A JP2020518861A JP 2020518861 A JP2020518861 A JP 2020518861A JP 2019560155 A JP2019560155 A JP 2019560155A JP 2019560155 A JP2019560155 A JP 2019560155A JP 2020518861 A JP2020518861 A JP 2020518861A
Authority
JP
Japan
Prior art keywords
voice
keyword
candidate recognition
result
recognition result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019560155A
Other languages
English (en)
Other versions
JP6820058B2 (ja
Inventor
平 ▲鄭▼
平 ▲鄭▼
▲豐▼ ▲饒▼
▲豐▼ ▲饒▼
▲鯉▼ ▲盧▼
▲鯉▼ ▲盧▼
涛 李
涛 李
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Publication of JP2020518861A publication Critical patent/JP2020518861A/ja
Application granted granted Critical
Publication of JP6820058B2 publication Critical patent/JP6820058B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/197Probabilistic grammars, e.g. word n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/081Search algorithms, e.g. Baum-Welch or Viterbi
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/085Methods for reducing search complexity, pruning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Abstract

本発明は、音声認識方法、装置、デバイス、及び記憶媒体であって、コンピュータ分野に属する。この方法は、音声信号を取得し(101)、音声認識アルゴリズムにより該音声信号を認識して、n個の候補認識結果を得(102)、m種の選択規則のうち実行順序がjである選択規則により、該n個の候補認識結果のうちの目標結果を決定し(103)、該実行順序がjである選択規則により該目標結果が決定されなかった場合、実行順序がj+1である選択規則により、該n個の候補認識結果のうちの該目標結果を決定する(104)、ことを含む。この方法によれば、RNN言語モデルに従ってパープレキシティを計算するのに消費される時間が長いことに起因して、複数の候補認識結果の中から目標結果を選択することのリアルタイム性が悪くなるという課題が解決され、n個の候補認識結果の中から目標結果を選択することのリアルタイム性を向上させる。

Description

本願は、2017年06月29日に中国国家知識産権局に出願された、出願番号が2017105177374号であり、発明名称が「音声認識方法及び装置」である中国特許出願の優先権を主張し、その全ての内容は参照することにより本願に組み込まれる。
[技術分野]
本願の実施例は、コンピュータ分野に関し、特に、音声認識方法、装置、デバイス、及び記憶媒体に関する。
音声認識技術とは、音声認識デバイスにより音声情報をテキスト情報として認識する技術である。音声認識技術は、音声ダイヤル、音声ナビゲーション、スマートホームコントロール、音声検索、ディクテーションデータ入力などのシーンに広く用いられている。
本願の実施例は、音声認識方法、装置、デバイス、及び記憶媒体を提供しており、音声認識デバイスがRNN言語モデルに従ってパープレキシティを計算するのに消費される時間が長いことに起因する、複数の候補認識結果のうちの目標結果を選択することのリアルタイム性が悪くなるという課題を解決することができる。
解決手段は以下の通りである。
本願の一態様によれば、音声認識方法が提供され、前記方法は、
音声信号を取得し、
音声認識アルゴリズムにより前記音声信号を認識して、前記音声信号に対応するテキスト情報であるn(nは1より大きい整数)個の候補認識結果を得、
m(mは1より大きい整数)種の選択規則のうち実行順序がj(jの初期値は1)である選択規則により、前記n個の候補認識結果のうち前記音声信号とのマッチング度が最も高い候補認識結果である目標結果を決定し、
前記実行順序がjである選択規則により前記目標結果が決定されなかった場合、実行順序がj+1である選択規則により、前記n個の候補認識結果のうちの前記目標結果を決定する、ことを含む。
本願の他の一態様によれば、候補認識結果選択装置が提供され、前記装置は、
音声信号を取得する信号取得モジュールと、
音声認識アルゴリズムにより、前記信号取得モジュールで取得された前記音声信号を認識して、前記音声信号に対応するテキスト情報であるn(nは1より大きい整数)個の候補認識結果を得る音声認識モジュールと、
m(mは1より大きい整数)種の選択規則のうち実行順序がj(jの初期値は1)である選択規則により、前記音声認識モジュールで認識された前記n個の候補認識結果のうち前記音声信号とのマッチング度が最も高い候補認識結果である目標結果を決定する決定モジュールと、を含み、
前記決定モジュールは、前記第1の決定モジュールによって、前記実行順序がjである選択規則により前記目標結果が決定されなかった場合、実行順序がj+1である選択規則により、前記n個の候補認識結果のうちの前記目標結果を決定する。
本願の別の一態様によれば、音声認識デバイスが提供され、前記音声認識デバイスは、少なくとも1つの命令、少なくとも1つのプログラム、コードセット、又は命令セットを記憶したメモリと、前記少なくとも1つの命令、前記少なくとも1つのプログラム、前記コードセット、又は前記命令セットをロードして実行することにより、第1の態様で提供された音声認識方法を実現するプロセッサと、を含む。
本願のさらに別の一態様によれば、前記記憶媒体には、少なくとも1つの命令、少なくとも1つのプログラム、コードセット、又は命令セットが記憶され、前記少なくとも1つの命令、前記少なくとも1つのプログラム、前記コードセット、又は前記命令セットがプロセッサによりロードされて実行されることで、第1の態様で提供された音声認識方法を実現させる。
本願の実施例で提供された解決手段による有益な効果は、少なくとも以下の効果を含む。
m種の選択規則のうち少なくとも1種を順次に実行することにより、音声認識されたn個の候補認識結果のうちの目標結果を選択する。ここで、各種の選択規則のアルゴリズムの複雑さは、いずれも、RNN言語モデルに従ってパープレキシティを計算するアルゴリズムの複雑さよりも低い。RNN言語モデルに従ってパープレキシティを計算するのに消費される時間が長いことに起因して、複数の候補認識結果の中から目標結果を選択することのリアルタイム性が悪くなるという課題が解決される。1種の選択規則のみを実行するだけで、目標結果を決定できる場合、この選択規則のアルゴリズムの複雑さがRNN言語モデルに従ってパープレキシティを計算するアルゴリズムの複雑さよりも低いため、n個の候補認識結果の中から目標結果を選択することのリアルタイム性を向上させる。
本願の実施例における解決手段をさらに明確に説明するために、以下、実施例の説明に必要な図面を簡単的に紹介する。明らかに、以下の説明における図面は本願のいくつかの実施例を示しているにすぎず、当業者にとって、創造的な労働をせずに、これらの図面から他の図面を得ることもできる。
本願の一実施例で提供された音声認識システムの構成の模式図である。 本願の一実施例で提供された音声認識方法のフローチャートである。 本願の別の実施例で提供された音声認識方法のフローチャートである。 本願の一実施例で提供された第1の対応関係及び第2の対応関係の模式図である。 本願の別の実施例で提供された音声認識方法のフローチャートである。 本願の別の実施例で提供された音声認識方法のフローチャートである。 本願の一実施例で提供された音声認識装置のブロック図である。 本願の一実施例で提供された音声認識デバイスの構成の模式図である。
本願の目的、解決手段、及びメリットをさらに明確にするために、以下、本願の実施形態について図面を参照してさらに詳しく説明する。
まず、本願の実施例に係る若干の用語を説明する。
音声認識デバイス:音声信号をテキスト情報として認識する機能を有する電子デバイス。
選択的に、音声認識デバイスは、音声認識エンジンが実装されたサーバであってよく、この音声認識エンジンによって、音声信号をテキスト情報として認識する。
また、音声認識デバイスで受信された音声信号は、この音声認識デバイスがオーディオ収集コンポーネントで収集したものであってよく、又は、音声受信デバイスがオーディオ収集コンポーネントで収集して音声認識デバイスへ送信したものであってもよい。音声受信デバイスは、音声認識デバイスと別体の電子デバイスであってよい。例えば、音声受信デバイスは、携帯電話、タブレット、スマートスピーカー、スマートテレビ、スマート空気清浄器、スマートエアコン、電子書籍リーダー、動画専門家グループオーディオレイヤー3(MP3:Moving Picture Experts Group Audio Layer III)プレーヤー、動画専門家グループオーディオレイヤー4(MP4:Moving Picture Experts Group Audio Layer IV)プレーヤー、ラップトップポータブルコンピュータ、デスクトップコンピュータなどであってよい。
選択的に、音声認識デバイスも、携帯電話、タブレット、スマートスピーカー、スマートテレビ、スマート空気清浄器、スマートエアコンなどであってよく、本実施例では限定されない。
選択的に、以下、音声認識デバイスがサーバであり、音声認識デバイスが音声受信デバ
イスから送信された音声信号を受信することを例に説明する。
候補認識結果:ある1つの音声信号について、音声認識デバイスで認識された少なくとも1つのテキスト情報。
選択的に、音声認識デバイスで得られた候補認識結果が2つ以上である場合、この2つ以上の候補認識結果のうちの目標結果を選択する必要がある。ここで、目標結果とは、音声信号とのマッチング度が最も高い候補認識結果を指す。
関連技術では、同じ発音の音声信号が複数の異なる文字の組み合わせに対応し得、例えば、nihaoが中国語の
の3つの組み合わせに対応するため、音声認識デバイスは、音声信号から複数の候補認識結果を認識する可能性がある。音声認識デバイスが複数の候補認識結果を認識した場合、如何に音声信号とのマッチング度が最も高い候補認識結果を選択するかが特に重要になる。
関連技術では、下記の典型的な音声認識方法が提供されている。音声認識デバイスは、n個の候補認識結果を取得した後、再帰型ニューラルネットワーク(RNN:Recurrent Neural Network)言語モデルに従って各候補認識結果のパープレキシティを計算し、パープレキシティの最小値に対応する候補認識結果を目標結果として決定する。ここで、RNN言語モデルは、1つの共通のコーパスに基づいてトレーニングすることにより得られたものであり、パープレキシティは、候補認識結果と音声信号との類似度を示すものであり、パープレキシティとこの類似度とが負の相関関係にあり、目標結果とは、n(nは1より大きい整数)個の候補認識結果のうち、実際に受信された音声信号とのマッチング度が最も大きい候補認識結果を指す。
RNN言語モデルに従ってパープレキシティを計算するのに消費される時間が長いことに起因して、n個の候補認識結果のうちの目標結果を選択することのリアルタイム性が悪くなる。
図1は、本願の一実施例で提供された音声認識システムの構成の模式図である。このシステムは、少なくとも1つの音声受信デバイス110と、音声認識デバイス120と、を含む。
音声受信デバイス110は、携帯電話、タブレット、スマートスピーカー、スマートテレビ、スマート空気清浄器、スマートエアコン、電子書籍リーダー、MP3プレーヤー、MP4プレーヤー、ラップトップポータブルコンピュータ、デスクトップコンピュータであってよく、本実施例では限定されない。
音声受信デバイス110には、オーディオ収集コンポーネント111が取り付けられている。オーディオ収集コンポーネント111は音声信号を収集する。
音声受信デバイス110と音声認識デバイス120との間は、無線ネットワークや有線ネットワークにより接続を確立する。音声受信デバイス110は、オーディオ収集コンポーネント111により音声信号を収集した後、この接続により音声信号を音声認識デバイス120に送信する。
音声認識デバイス120は、音声信号をテキスト情報(候補認識結果)として認識する。選択的に、このテキスト情報は2つ以上である。
選択的に、音声認識デバイス120は、複数の候補認識結果を認識した場合、さらに、この複数の候補認識結果のうちの目標結果を選択する。
選択的に、音声認識デバイス120は、目標結果を選択した後、この目標結果を音声受信デバイス110にフィードバックする。
選択的に、音声認識デバイス120は、サーバ又はサーバクラスタとして実現されてもよく、本実施例では限定されない。
選択的に、携帯電話、タブレット、スマートスピーカー、スマートテレビ、スマート空気清浄器、スマートエアコン、電子書籍リーダー、MP3プレーヤー、MP4プレーヤー、ラップトップポータブルコンピュータなどのモバイル端末の物理ハードウェアが複雑なアルゴリズムの実行をサポートする場合、音声認識デバイス120は、これらのモバイル端末の少なくとも1つとして実現されてもよく、本実施例では限定されない。
選択的に、上記の無線ネットワークや有線ネットワークは、標準化通信技術及び/又はプロトコルを使用する。ネットワークは、通常、インターネットであるが、任意のネットワークであってもよく、ローカルエリアネットワーク(LAN:Local Area Network)、大都市圏ネットワーク(MAN:Metropolian Area Network)、広域ネットワーク(WAN:Wide Area Network)、モバイルネットワーク、有線ネットワーク又は無線ネットワーク、専用ネットワーク又は仮想専用ネットワークの任意の組み合わせを含むが、これらに限定されない。いくつかの実施例では、ハイパーテキストマークアップ言語(HTML:HyperText Mark−up Language)、拡張可能なマークアップ言語(XML:Extensible Markup Language)などを含む技術及び/又はフォーマットを用いて、ネットワークを介して交換されるデータを表す。また、セキュアソケットレイヤー(SSL:Secure Socket Layer)、トランスポートレイヤーセキュリティ(TLS:Trassport Layer Security)、仮想専用ネットワーク(VPN:Virtual Private Network)、インターネットプロトコルセキュリティ(IPsec:Internet Protocol Security)などの通常の暗号化技術を使用して、全部又は一部のリンクを暗号化してもよい。他の一部の実施例では、上記のデータ通信技術の代わりや補足として、カスタマイズ及び/又は専用のデータ通信技術を使用してもよい。
選択的に、本願の実施例では、各実施例の実行主体が音声認識デバイスであることを例に説明する。
図2は、本願の例示的な一実施例で提供された音声認識方法のフローチャートである。本実施例では、この方法を音声認識デバイスに適用する場合を例に説明する。この方法は、以下のステップを含んでよい。
ステップ101で、音声信号を取得する。
選択的に、音声信号は、音声受信デバイスから音声認識デバイスに送信されるものであり、又は音声認識デバイスで収集されるものであり、又は、モバイル記憶装置を介して音声認識デバイスに入力されるものである。
ステップ102で、音声認識アルゴリズムにより音声信号を認識して、n個の候補認識結果を得る。
ここで、候補認識結果とは、音声信号に対応するテキスト情報を指す。nは、1より大きい整数である。
音声認識アルゴリズムは、音声信号を少なくとも1つのテキスト情報として認識する。音声認識アルゴリズムは、ビットビー(Viterbi)アルゴリズムを改善することにより得られた並列アルゴリズムであってもよいし、あるいは、ビットビーアルゴリズムを改善することにより得られたシリアルアルゴリズムであってもよいし、あるいは、ツリー・トレリス(Tree−Trellis)アルゴリズムであってもよいが、本実施例では限定されない。
選択的に、音声認識アルゴリズムは、n個の候補認識結果を初歩的に並べ替える機能を有する。この場合、音声認識デバイスが取得したn個の候補認識結果に順序識別子がある。このように、音声認識デバイスは、目標結果を選択する際に、順序識別子に示された順序に従って、目標結果であるかどうかを順次に検出する。
補足的に説明すべきものとして、音声認識デバイスは、1つの候補認識結果のみを認識してもよく、本実施例では限定されない。
ステップ103で、m種の選択規則のうち実行順序がjである選択規則により、n個の候補認識結果のうちの目標結果を決定する。
目標結果とは、n個の候補認識結果のうち、音声信号とのマッチング度が最も高い候補認識結果を指す。mは1より大きい整数であり、jの初期値は1である。1≦j≦m−1である。
選択的に、m種の選択規則の実行順序が各選択規則のアルゴリズムの複雑さに基づいて決定され、アルゴリズムの複雑さと実行順序とが正の相関関係にある。即ち、アルゴリズムの複雑さが低いほど、実行順序の番号が小さくなり、実行順序が前になり、アルゴリズムの複雑さが高いほど、実行順序の番号が大きくなり、実行順序が後になる。
ここで、選択規則のアルゴリズムの複雑さと目標結果の選択速度とが負の相関関係にある。即ち、アルゴリズムの複雑さが高いほど、目標結果の選択速度が遅くなり、アルゴリズムの複雑さが低いほど、目標結果の選択速度が速くなる。
選択的に、各選択規則のアルゴリズムの複雑さは、複雑さ識別子で表される。例示的に、アルゴリズムの複雑さ識別子は、1、2、3であり、ここで、数値が小さいほど、アルゴリズムの複雑さが低くなる。
選択的に、m種の選択規則の実行順序は開発者によって指定され、m種の選択規則のアルゴリズムの複雑さは、いずれも、RNN言語モデルに従ってパープレキシティを計算するアルゴリズムの複雑さよりも低いので、どの選択規則を優先的に実行しても、音声認識デバイスの目標結果の選択速度は、RNN言語モデルに従ってパープレキシティを計算することにより目標結果を選択する場合の速度よりも速い。
この場合、実行順序は、実行順序識別子で表されてもよい。例示的に、実行順序識別子は、#1、#2、#3である。ここで#1は実行順序が1であることを示し、#2は実行順序が2であることを示し、#3は実行順序が3であることを示す。
選択的に、m種の選択規則の実行順序はランダムに選択される。
ステップ104で、実行順序がjである選択規則により目標結果が決定されなかった場合、実行順序がj+1である選択規則により、n個の候補認識結果のうちの目標結果を決定する。
実行順序がjである選択規則により、目標結果が音声認識デバイスによって決定されなかったことがあり得る。この場合、音声認識デバイスは、n個の候補認識結果のうちの目標結果が決定されるまで、実行順序がj+1である選択規則により目標結果を引き続き決定し、フローを終了する。
選択的に、音声認識デバイスは、n個の候補認識結果を再び並べ替える。ここで、n個の候補認識結果のうちの目標結果の並び順は、1番目となり、1番目の結果以外の残りのn−1個の候補認識結果のうちの目標結果の並び順は、2番目となり、1番目及び2番目の結果以外の残りのn−2個の候補認識結果のうちの目標結果の並び順は、3番目となるように繰り返す。
以上のように、本願で提供された音声認識方法では、m種の選択規則のうちの少なくとも1種を順次に実行することにより、音声認識されたn個の候補認識結果の中から目標結果を選択する。ここで、各選択規則のアルゴリズムの複雑さは、いずれも、RNN言語モデルに従ってパープレキシティを計算するアルゴリズムの複雑さよりも低い。RNN言語モデルに従ってパープレキシティを計算するのに消費される時間が長いことに起因して、複数の候補認識結果の中から目標結果を選択することのリアルタイム性が悪くなるという課題が解決される。1種の選択規則のみを実行するだけで、目標結果を決定できる場合、この選択規則のアルゴリズムの複雑さがRNN言語モデルに従ってパープレキシティを計算するアルゴリズムの複雑度よりも低いため、n個の候補認識結果の中から目標結果を選択することのリアルタイム性を向上させる。
選択的に、本実施例におけるm種の選択規則は、異なる使用シーンに応じて決定される選択規則である。m種の選択規則は、命令選択規則と、機能選択規則と、会話選択規則との少なくとも2種を含む。命令シーン(即ち、音声信号は命令形式のメッセージ)では、m種の選択規則のうちの命令選択規則により、目標結果を認識することができる。機能シーン(即ち、音声信号は機能的メッセージ)では、m種の選択規則のうちの機能選択規則により、目標結果を認識することができる。会話シーン(即ち、音声信号は会話形式のメッセージ)では、m種の選択規則のうちの会話選択規則により、目標結果を認識することができる。
ここで、命令形式のメッセージは、ある命令を実行するように音声受信デバイスに指示するためのものである。例えば、音声受信デバイスがスマートスピーカーである場合、命令形式のメッセージは、前の曲、次の曲、一時停止、再生などのメッセージであってよい。
通常、命令形式のメッセージは、規則的ではなく、かつ数に限りがある。例えば、前の曲という命令形式のメッセージは、前曲、前の曲を再生してください、前曲を再生してください、前曲に切り替えてください、前の曲に切り替えてくださいなどに変化することが可能である。上記の様々な変化は、規則的ではなく、かつ変化の種類に限りがある。
命令形式のメッセージは、規則的ではなく、かつ数に限りがあるので、本実施例では、音声認識デバイスにおいて、複数の命令キーワードを含む命令レキシコンが予め設けられ、命令選択規則は、命令レキシコンにi(1≦i≦n)番目の候補認識結果とマッチングする命令キーワードが含まれるかどうかに基づいて、このi番目の候補認識結果が目標結果であるかどうかを検出するように音声認識デバイスに指示するためのものである。
機能的メッセージは、少なくとも1つの音声キーワードに基づいて、ある命令を実行するように音声受信デバイスに指示するためのものである。例えば、機能的メッセージは、「周杰倫の歌を再生する」である。
通常、機能的メッセージは、固定形式の機能テンプレートと変化可能な音声キーワードとを有する。例えば、「周杰倫の歌を再生する」の中で、機能テンプレートは「()の歌を再生する」であり、音声キーワードは「周杰倫」である。
通常、機能的メッセージは、固定形式の機能テンプレートと変化可能な音声キーワードとを有するので、本実施例では、音声認識デバイスにおいて、機能テンプレートライブラリと音声レキシコンとが予め設けられ、機能選択規則は、音声レキシコンに音声キーワードとマッチングするレキシコンキーワードが含まれるかどうかに基づいて、i番目の候補認識結果が目標結果であるかどうかを検出するように音声認識デバイスに指示するためのものであり、この音声キーワードはi番目の候補認識結果における少なくとも1つのキーワードである。
会話形式のメッセージとは、規則的ではなく、かつ変化の数が未知であるメッセージを意味する。例えば、会話メッセージは、「何をしていますか」、「今日は暇ですか」、「映画が本当に面白いです」などである。
会話形式のメッセージは、規則的ではなく、かつ変化の数が未知であるので、本実施例では、音声認識デバイスにおいて、事前にトレーニングされた言語モデルが設けられ、会話選択規則は、トレーニングされた言語モデルに従って、各候補認識結果と音声信号との類似度を決定することにより、目標結果を選択するように音声認識デバイスに指示するためのものである。
選択的に、本実施例では、命令選択規則のアルゴリズムの複雑さは、機能選択規則のアルゴリズムの複雑さよりも低く、機能選択規則のアルゴリズムの複雑さは、会話選択規則のアルゴリズムの複雑さよりも低い。これに応じて、音声認識デバイスは、命令選択規則を優先的に実行して目標結果を選択し、命令選択規則により目標結果が選択されなかった場合、機能選択規則を実行して目標結果を選択し、機能選択規則により目標結果が選択されなかった場合、会話選択規則を実行して目標結果を選択する。
選択的に、本実施例では、命令選択規則のアルゴリズムの複雑さ、機能選択規則のアルゴリズムの複雑さ、及び会話選択規則のアルゴリズムの複雑さは、いずれも、RNN言語モデルに従って目標結果を選択するアルゴリズムの複雑さよりも遥かに小さいので、音声認識デバイスが命令選択規則、機能選択規則、及び会話選択規則を順次に実行してやっと目標結果を決定した場合にも、音声認識デバイスが消費した全体時間は、RNN言語モデルに従って目標結果を選択するのに消費される全体時間よりも小さい。
以下、命令選択規則により目標結果を選択すること(図3に示す実施例を参照)、機能選択規則により目標結果を選択すること(図5に示す実施例を参照)、会話選択規則により目標結果を選択すること(図6に示す実施例を参照)をそれぞれ説明する。
図3は、本願の他の実施例で提供された音声認識方法のフローチャートである。本実施例では、この音声認識方法を音声認識デバイスに適用する場合を例に説明する。この方法は、以下のステップを含んでよい。
ステップ201で、命令レキシコンの第1の対応関係にi番目の候補認識結果とマッチングする命令キーワードが含まれるかどうかを検出する。
第1の対応関係は、インデックス値と命令キーワードとの対応関係を含む。
選択的に、第1の対応関係は、正引きテーブルにより実現される。この正引きテーブルは、少なくとも1つのキー/値ペアを含み、各キー/値ペアのキーがハッシュ値(インデックス値)であり、各キー/値ペアの値が命令キーワードである。
本実施例では、第1の対応関係のキー/値ペアの数を限定しないが、例示的に、第1の対応関係のキー/値ペアの数は1000である。
音声認識デバイスは、命令レキシコンの第1の対応関係にi番目の候補認識結果とマッチングする命令キーワードが含まれるかどうかを検出することは、i番目の候補認識結果のハッシュ値を計算し、第1の対応関係において該ハッシュ値に等しいキーがあるかどうかを検出し、第1の対応関係において該ハッシュ値に等しいキーがある場合、第1の対応関係にi番目の候補認識結果とマッチングする命令キーワードが含まれると決定し、ステップ202を実行し、第1対応関係において該ハッシュ値に等しいキーがない場合、i=i+1にして、本ステップを実行し続ける、こと含む。
選択的に、第1の対応関係は、少なくとも1つの命令キーワードのみを含んでよく、音声認識デバイスは、i番目の候補認識結果と各命令キーワードとをマッチングし、第1の対応関係にi番目の候補認識結果と完全にマッチングする命令キーワードがある場合、ステップ202を実行し、第1の対応関係にi番目の候補認識結果と完全にマッチングする命令キーワードがない場合、i=i+1にして、本ステップを実行し続ける。
ステップ202で、i番目の候補認識結果を目標結果として決定し、フローを終了する。
選択的に、第1の対応関係に少なくとも2つの候補認識結果に対応する命令キーワードが含まれる場合、音声認識デバイスは、1番目の候補認識結果を目標結果としてもよく、又は、音声認識デバイスは、ステップ203を実行して、この少なくとも2つの候補認識結果の中から目標結果を再度選択してもよい。
ステップ203で、第1の対応関係にn個の候補認識結果のうちのいずれの候補認識結果とマッチングする命令キーワードも含まれない場合、命令レキシコンの第2の対応関係にi番目の候補認識結果におけるいずれか1文字とマッチングする1文字キーワードが含まれるかどうかを検出する。
第2の対応関係は、インデックス値と1文字キーワードとの対応関係を含み、命令キーワードは、1文字キーワードを含む。
選択的に、第2の対応関係は、逆引きテーブルにより実現される。この逆引きテーブルは、少なくとも1つのキー/値ペアを含み、各キー/値ペアのキーが1文字キーワードのハッシュ値であり、各キー/値ペアの値がこの1文字キーワードに対応する第1の対応関係における少なくとも1つのインデックス値である。
音声認識デバイスは、命令レキシコンの第2の対応関係にi番目の候補認識結果におけるいずれか1文字とマッチングする1文字キーワードが含まれるかどうかを検出することは、i番目の候補認識結果における各文字のハッシュ値を計算し、第2の対応関係にいずれか1文字のハッシュ値に等しいキーが含まれるかどうかを検出し、第2対応関係にいずれか1文字のハッシュ値に等しいキーが含まれる場合、第2の対応関係にi番目の候補認識結果における文字とマッチングする1文字キーワードが含まれると決定し、ステップ204を実行し、第2の対応関係にいずれか1文字のハッシュ値に等しいキーが含まれない場合、i=i+1にして、本ステップを実行し続ける、ことを含む。
選択的に、第2の対応関係における各キー/値ペアのキーは、1文字キーワードであってもよい。
ステップ204で、第2の対応関係における1文字キーワードに対応するインデックス値に基づいて、第1の対応関係においてインデックス値に対応する命令キーワードを検索する。
命令キーワードが1文字キーワードから構成されているが、異なる命令キーワードに同じ1文字キーワードが含まれる可能性があるため、音声認識デバイスが1文字キーワードに対応するインデックス値、即ち、第2の対応関係における1文字キーワードに対応するキー/値ペアの値に基づいて検索した命令キーワードの数は、少なくとも1つである。
本実施例では、第1の対応関係と第2の対応関係とを組み合わせて、i番目の候補認識結果とマッチングする命令キーワードを検出することにより、音声認識デバイスが命令キーワードのすべての変化形式を記憶する必要がなく、すべての変化形式に含まれる1文字キーワードを記憶するだけで、対応する命令キーワードを決定することができ、音声認識デバイスの記憶空間を節約する。
ステップ205で、i番目の候補認識結果と命令キーワードとの編集距離を決定する。
編集距離(又はライビングステン(Levenshtein)距離と呼ぶ)は、i番目の候補認識結果を命令キーワードに変換するために必要な操作回数を示すものである。ここで、変換の操作は、置換、挿入、及び削除を含むが、これらに限定されない。
音声認識デバイスによって、複数の命令キーワードが決定されることが可能である。このとき、i番目の候補認識結果と各命令キーワードとの編集距離を決定する。
例えば、i番目の候補認識結果が中国語の「在停」であり、音声認識デバイスによって決定された命令キーワードが中国語の
であり、音声認識デバイスが中国語の「在」を中国語の
に置き換えるだけで、中国語の「在停」を中国語の
に変換できる場合、i番目の候補認識結果と命令キーワードとの編集距離は1である。
ステップ206で、編集距離が所定値より小さい場合、i番目の候補認識結果を目標結果として決定する。
編集距離が所定値より小さい場合は、i番目の候補認識結果と命令キーワードとの類似度が高いことを表す。この場合、このi番目の候補認識結果を目標結果として決定する。
所定値は、通常小さい値を取るが、本実施例では、所定値を限定しない。例示的に、所定値は2である。
図4に示す第1の対応関係及び第2の対応関係の模式図を参照すると、第1の対応関係は、3つのキー/値ペアを含み、各キー/値ペアがインデックス値及び命令キーワードからなり、第2の対応関係は、3つのキー/値ペアを含み、各キー/値ペアがハッシュ値及びインデックス値からなる。
音声認識デバイスによって、それぞれ中国語の
である4つの候補認識結果が認識された場合、音声認識デバイスは、この4つの候補認識結果のハッシュ値をそれぞれ計算する。ここで、中国語の「再填」のハッシュ値は1であり、中国語の「在田」のハッシュ値は2であり、中国語の「在填」のハッシュ値は3であり、中国語の
のハッシュ値は4である。第1の対応関係におけるキーに4が含まれるため、中国語の
を目標結果として決定する。
音声認識デバイスによって、それぞれ中国語の「再填」、「在田」、「在填」、及び「在停」である4つの候補認識結果が認識された場合、音声認識デバイスは、この4つの候補認識結果のハッシュ値をそれぞれ計算する。ここで、中国語の「再填」のハッシュ値は1であり、中国語の「在田」のハッシュ値は2であり、中国語の「在填」のハッシュ値は3であり、中国語の「在停」のハッシュ値は5である。第1の対応関係におけるキーに1、2、3、5が含まれないため、音声認識デバイスは、各候補認識結果における各文字のハッシュ値を計算する。中国語の「在停」という候補認識結果について、中国語文字「在」のハッシュ値は11であり、中国語文字「停」のハッシュ値は12である。第2の対応関係におけるキーに12が含まれるため、音声認識デバイスは、第2の対応関係における12に対応するインデックス値4に基づいて、第1の対応関係においてインデックス値4に対応する中国語の

という命令キーワードを検索する。中国語の
との編集距離は、1であり、所定値2より小さいので、中国語の「在停」を目標結果として決定する。
選択的に、すべての候補認識結果と命令キーワードとの編集距離が所定値以上である場合、命令選択規則により目標結果が選択されなかった。この場合、音声認識デバイスは、他の選択規則により目標結果を選択し続け、又は、1番目の候補認識結果を目標結果として決定し、又は、目標結果を選択せずに、フローを終了する。ここで、他の選択規則は、機能選択規則又は会話選択規則である。
選択的に、音声認識デバイスは、編集距離が最も小さい候補認識結果を目標結果として決定してもよい。
以上のように、本願で提供された音声認識方法では、命令選択規則によりn個の候補認識結果のうちの目標結果を選択し、命令選択規則を実行するだけで目標結果を決定することができる場合、命令選択規則のアルゴリズムの複雑さが、RNN言語モデルに従ってパープレキシティを計算するアルゴリズムの複雑さよりも低いため、n個の候補認識結果の中から目標結果を選択することのリアルタイム性を向上させる。
また、第1の対応関係と第2の対応関係とを組み合わせて、i番目の候補認識結果とマッチングする命令キーワードを検出することにより、音声認識デバイスが命令キーワードのすべての変化形式を記憶する必要がなく、すべての変化形式に含まれる1文字キーワードを記憶するだけで、対応する命令キーワードを決定することができ、音声認識デバイスの記憶空間を節約する。
選択的に、音声認識デバイスは目標結果を音声受信デバイスに送信し、この音声受信デバイスは目標結果に対応する命令に従って相応の動作を実行する。例えば、音声受信デバイスがスマートスピーカーであり、かつ目標結果が中国語の
である場合、スマートスピーカーは、この目標結果を受信した後、現在再生中のオーディオ情報の再生を一時停止する。
図5は、本願の他の実施例で提供された音声認識方法のフローチャートである。本実施例では、この音声認識方法を音声認識デバイスに適用する場合を例に説明する。この方法は、以下のステップを含んでよい。
ステップ401で、i(1≦i≦n)番目の候補認識結果の機能テンプレートを分析する。
選択的に、音声認識デバイスには、少なくとも1つの機能テンプレートを含む機能テンプレートライブラリが予め設けられている。
選択的に、機能テンプレートは、正規表現(又は規則表現と呼ぶ)によって表される。例えば、機能テンプレートは、「一曲の(.+)の歌」である。本実施例では、機能テンプレートライブラリにおける機能テンプレートの数を限定しないが、例示的に、機能テンプレートライブラリにおける機能テンプレートの数は540個である。
また、正規表現は、ある機能テンプレートに該当するテキスト情報を検索及び/又は置換するために使用される。
音声認識デバイスは、i番目の候補認識結果と機能テンプレートライブラリにおける各機能テンプレートとをマッチングすることにより、i番目の候補認識結果における機能テンプレートを分析する。
ステップ402で、音声レキシコンにi番目の候補認識結果における音声キーワードとマッチングするレキシコンキーワードが含まれるかどうかを検出する。
i番目の候補認識結果は、機能テンプレートと少なくとも1つの音声キーワードとを含み、音声認識デバイスは、i番目の候補認識結果の機能テンプレートを分析した後、i番目の候補認識結果における残りのキーワードを音声キーワードとする。
音声認識デバイスには音声レキシコンが予め設けられ、音声レキシコンには少なくとも1つのレキシコンキーワードが含まれる。本実施例では、音声レキシコンにおけるレキシコンキーワードの数を限定しないが、例示的に、音声レキシコンにおけるレキシコンキーワードの数は100万である。
音声認識デバイスは、i番目の候補認識結果における音声キーワードと音声レキシコンにおける少なくとも1つのレキシコンキーワードとを逐一にマッチングし、音声レキシコンにi番目の候補認識結果における音声キーワードとマッチングするレキシコンキーワードが含まれる場合、ステップ403を実行し、音声レキシコンにi番目の候補認識結果における音声キーワードとマッチングするレキシコンキーワードが含まれない場合、i=i+1にして、本ステップを実行し続ける。
ステップ403で、i番目の候補認識結果を目標結果として決定し、フローを終了する。
選択的に、機能選択規則により目標結果が選択されなかった場合、音声認識デバイスは、他の選択規則により目標結果を選択し続け、又は、1番目の候補認識結果を目標結果として決定し、又は、目標結果を選択せずに、フローを終了する。ここで、他の選択規則は、命令選択規則又は会話選択規則である。
なお、機能選択規則により目標結果が選択されなかったことは、各候補認識結果の機能テンプレートが音声認識デバイスの分析によって得られなかった場合、又は、音声レキシコンにおいて、各候補認識結果における音声キーワードとマッチングするレキシコンキーワードが音声認識デバイスによって検索されなかった場合を含むが、これらに限定されない。
音声認識デバイスによって、それぞれ、1、「図案歌の歌を聞きたい」、2、「童安格の咯を聞きたい」、3、「童安格の歌を聞きたい」である3つの候補認識結果が得られると仮定する。音声認識デバイスは、これらの3つの候補認識結果と機能テンプレートライブラリにおける機能テンプレートとをそれぞれマッチングする。得られた1番目の候補認識結果の機能テンプレートは「(.+)の歌を聞きたい」であり、2番目の候補認識結果の機能テンプレートは「(.+)の(.+)を聞きたい」であり、3番目の候補認識結果の機能テンプレートは「(.+)の歌を聞きたい」である。
1番目の候補認識結果について、音声キーワードは図案歌である。2番目の候補認識結果について、音声認識デバイスは1番目のキーワードを音声キーワードとし、即ち、音声キーワードは童安格である。3番目の候補認識結果について、音声キーワードは童安格である。
音声認識デバイスは、候補認識結果における音声キーワードと音声レキシコンにおけるレキシコンキーワードとを順次にマッチングする。2番目の候補認識結果における音声キーワードとレキシコンキーワードとをマッチングする場合、音声認識デバイスは、音声キーワードとマッチングするレキシコンキーワードを決定することができるため、2番目の候補認識結果を目標結果として決定する。
選択的に、2番目の候補認識結果について、音声認識デバイスは、すべてのキーワードを音声キーワードとしてもよく、即ち、音声キーワードは童安格及び咯である。この場合、音声レキシコンには、「童安格」とマッチングするレキシコンキーワードが含まれるが、「咯」とマッチングするレキシコンキーワードが含まれない。このとき、音声認識デバイスは、候補認識結果における音声キーワードと音声レキシコンにおけるレキシコンキーワードとを順次にマッチングする。3番目の候補認識結果における音声キーワードとレキシコンキーワードとをマッチングする場合、音声認識デバイスは、音声キーワードとマッチングするレキシコンキーワードを決定することができるため、3番目の候補認識結果を目標結果として決定する。
以上のように、本願で提供された音声認識方法では、機能選択規則によりn個の候補認識結果のうちの目標結果を選択し、機能選択規則を実行するだけで目標結果を決定することができる場合、機能選択規則のアルゴリズムの複雑さが、RNN言語モデルに従ってパープレキシティを計算するアルゴリズムの複雑さよりも低いため、n個の候補認識結果の中から目標結果を選択することのリアルタイム性を向上させる。
選択的に、音声認識デバイスは目標結果を音声受信デバイスに送信し、この音声受信デバイスは目標結果における音声キーワードに従って相応の動作を実行する。例えば、音声受信デバイスがスマートスピーカーであり、かつ目標結果が「周杰倫の歌を再生する」である場合、スマートスピーカーは、この目標結果を受信した後、周杰倫の歌を検索し、検索結果に対応するオーディオ情報を再生する。
選択的に、音声認識デバイスは、目標結果における音声キーワードに基づいて検索し、検索結果を音声受信デバイスに送信し、この音声受信デバイスは該検索結果に対応するオーディオ情報を再生する。例えば、音声受信デバイスがスマートスピーカーであり、かつ目標結果が「周杰倫の歌を再生する」である場合、音声認識デバイスは、目標結果における音声キーワード「周杰倫」に基づいて、周杰倫の歌を検索し、検索結果をスマートスピーカーに送信する。スマートスピーカーは、検索結果に対応するオーディオ情報を再生する。
図6は、本願の他の実施例で提供された音声認識方法のフローチャートである。本実施例では、この音声認識方法を音声認識システムに適用する場合を例に説明する。この方法は、以下のステップを含んでよい。
ステップ501で、言語モデルに従って、各候補認識結果のパープレキシティを計算する。
パープレキシティ(preplexity)は、候補認識結果と音声信号との類似度を示すためのものである。パープレキシティと類似度とが負の相関関係にある。
言語モデルは、自然言語に内在する法則を記述するための数学モデルである。
選択的に、本実施例では、言語モデルは、少なくとも1つの分野に対応する専用コーパスから生成されたN−gram言語モデルであり、N−gram言語モデルは、現在の単語の前のN−1個の単語の生起確率に基づいて、現在の単語の生起確率を決定するために使用され、Nは正整数である。本実施例では、Nの値が限定されないが、例示的に、Nは3であり、3−gram言語モデルはTri−gram言語モデルとも呼ばれる。例示的に、Nは2であり、2−gram言語モデルはBi−gram言語モデルとも呼ばれる。
N−gram言語モデルは、確率及び分布関数によって単語、フレーズ及びセンテンスなどの自然言語の基本単位の性質及び関係を記述し、自然言語に存在する統計原理に基づく生成及び処理規則を体現している。
本実施例では、音声認識デバイスが3−gram言語モデル又は2−gram言語モデルに従って各候補認識結果のパープレキシティを計算することを例に説明する。
選択的に、3−gram言語モデルは、以下の数式によって表される。
p(S)=p(w1)p(w2|w1)p(w3|w1,w2)...p(wn|w1,w2,...,wn−1)
=p(w1)p(w2|w1)p(w3|w1,w2)...p(wn|wn−1,wn−2)
ここで、p(S)は候補認識結果の生起確率を表し、p(w1)は候補認識結果における1番目の単語の生起確率を表し、p(w2|w1)は候補認識結果における1番目の単語の生起に依存した2番目の単語の生起確率を表し、p(w3|w1,w2)は候補認識結果における1番目及び2番目の単語の生起に依存した3番目の単語の生起確率を表し、p(wn|wn−1,wn−2)は、候補認識結果における1つ前の単語(n−1番目の単語)及び2つ前の単語(n−2番目の単語)の生起に依存したn番目の単語の生起確率を表す。
選択的に、2−gram言語モデルは、以下の数式によって表される。
p(S)=p(w1)p(w2|w1)p(w3|w1,w2)...p(wn|w1,w2,...,wn−1)
=p(w1)p(w2|w1)p(w3|w2)...p(wn|wn−1)
ここで、p(S)は候補認識結果の生起確率を表し、p(w1)は候補認識結果における1番目の単語の生起確率を表し、p(w2|w1)は候補認識結果における1番目の単語の生起に依存した2番目の単語の生起確率を表し、p(w3|w2)は候補認識結果における2番目の単語の生起に依存した3番目の単語の生起確率を表し、p(wn|wn−1)は、候補認識結果における1つ前の単語(n−1番目の単語)の生起に依存したn番目の単語の生起確率を表す。
なお、少なくとも1つの分野は、天気分野、音楽分野、数学分野、スポーツ分野、コンピュータ分野、家庭生活分野、地理分野、自然分野を含むが、これらに限定されない。
もちろん、少なくとも1つの分野は、他の分野を含んでもよいが、本実施例では限定されない。
音声認識デバイスは、所定の数式により、言語モデルに従って各候補認識結果のパープレキシティを計算する。
パープレキシティは、言語モデルに従って予測された各単語の後の候補単語の生起確率の幾何平均と見なされてもよい。通常、候補認識結果の生起確率とパープレキシティとが負の相関関係にあり、即ち、候補認識結果の生起確率が大きいほど、パープレキシティが低くなり、候補認識結果の生起確率が小さいほど、パープレキシティが高くなる。
選択的に、音声認識デバイスは、所定の数式により、言語モデルに従って各候補認識結果のパープレキシティを計算する際に、まず、各候補認識結果のクロスエントロピーを計算し、このクロスエントロピーと所定の数式とに基づいてこの音声認識結果のパープレキシティを決定する。
ここで、クロスエントロピーは、言語モデルに従って決定されたモデル言語と候補認識結果との違いの様子を示すためのものである。クロスエントロピーが小さいほど、モデル言語と候補認識結果との違いが小さくなり、候補認識結果と音声信号とのマッチング度が高くなり、クロスエントロピーが大きいほど、モデル言語と候補認識結果との違いが大きくなり、候補認識結果と音声信号とのマッチング度が低くなる。
選択的に、言語モデルは、例えば、神経ネットワーク言語モデルのような他のタイプであってもよく、本実施例では限定されない。
ステップ502で、n個の候補認識結果のパープレキシティの最小値を決定し、最小値に対応するi番目の候補認識結果を目標結果として決定する。
パープレキシティが小さいほど、候補認識結果と音声信号との類似度が高いことを表すので、パープレキシティの最小値に対応するi番目の候補認識結果を目標結果として決定する。
以上のように、本願で提供された音声認識方法では、会話選択規則によりn個の候補認識結果のうちの目標結果を選択し、会話選択規則を実行するだけで目標結果を決定することができる場合、会話選択規則のアルゴリズムの複雑さが、RNN言語モデルに従ってパープレキシティを計算するアルゴリズムの複雑さよりも低いため、n個の候補認識結果の中から目標結果を選択することのリアルタイム性を向上させる。
選択的に、音声認識デバイスは目標結果を音声受信デバイスに送信し、この音声受信デバイスは目標結果に従って会話情報を取得する。例えば、音声受信デバイスがスマートスピーカーであり、かつ目標結果が「何をしていますか」である場合、スマートスピーカーは、この目標結果を受信した後、会話モデルに従って会話情報を生成する。
選択的に、音声認識デバイスは、目標結果に基づいて会話情報を生成し、会話情報を音声受信デバイスに送信し、この音声受信デバイスは、この会話情報に対応するオーディオ情報を再生する。例えば、音声受信デバイスがスマートスピーカーであり、かつ目標結果が「何をしていますか」である場合、音声認識デバイスは、目標結果に基づいて会話情報を生成し、会話情報をスマートスピーカーに送信し、スマートスピーカーは、会話情報に対応するオーディオ情報を再生する。
説明すべきものとして、図3に示す実施例、図5に示す実施例、及び図6に示す実施例を2つずつ組み合わせて、新たな実施例としてもよく、又は3つの実施例を組み合わせて新たな実施例としてもよい。m=3を例にして、命令選択規則は1番目の選択規則であり、機能選択規則は2番目の選択規則であり、会話選択規則は3番目の選択規則である。
下記は、本願に係る装置の実施例であり、本願に係る方法の実施例を実行するために用いることができる。本願に係る装置の実施例に披露されていない詳細について、本願に係る方法の実施例を参照されたい。
図7は、本願の一実施例で提供された音声認識装置のブロック図である。この装置は、上記の方法例を実行する機能を有する。この機能は、ハードウェアによって実現されてもよいし、ハードウェアによって相応のソフトウェアを実行することにより実現されてもよい。この装置は、
音声信号を取得する信号取得モジュール610と、
音声認識アルゴリズムにより、前記信号取得モジュール610で取得された前記音声信号を認識して、前記音声信号に対応するテキスト情報であるn(nは1より大きい整数)個の候補認識結果を得る音声認識モジュール620と、
m(mは1より大きい整数)種の選択規則のうち実行順序がj(jの初期値は1)である選択規則により、前記音声認識モジュール620で認識された前記n個の候補認識結果のうち前記音声信号とのマッチング度が最も高い候補認識結果である目標結果を決定する決定モジュール630と、を含んでよく、
前記決定モジュール630は、前記実行順序がjである選択規則により前記目標結果が決定されなかった場合、実行順序がj+1である選択規則により、前記n個の候補認識結果のうちの前記目標結果を決定する。
選択的に、m種の選択規則の実行順序がそれぞれのアルゴリズムの複雑さに基づいて決定され、実行順序とアルゴリズムの複雑さとが正の相関関係にある。
選択的に、m種の選択規則は、命令選択規則と、機能選択規則と、会話選択規則との少なくとも2種を含み、命令選択規則のアルゴリズムの複雑さが機能選択規則のアルゴリズムの複雑さよりも低く、機能選択規則のアルゴリズムの複雑さが会話選択規則のアルゴリズムの複雑さよりも低く、
命令選択規則は、命令レキシコンにi(1≦i≦n)番目の候補認識結果とマッチングする命令キーワードが含まれるかどうかに基づいて、i番目の候補認識結果が目標結果であるかどうかを検出するように音声認識デバイスに指示するためのものであり、
機能選択規則は、音声レキシコンに音声キーワードとマッチングするレキシコンキーワードが含まれるかどうかに基づいて、i番目の候補認識結果が目標結果であるかどうかを検出するように音声認識デバイスに指示するためのものであり、音声キーワードは、i番目の候補認識結果における少なくとも1つのキーワードであり、
会話選択規則は、トレーニングされた言語モデルに従って、各候補認識結果と音声信号との類似度を決定することにより、目標結果を選択するように音声認識デバイスに指示するためのものである。
選択的に、決定モジュール630は、第1の検出手段と第1の決定手段とを含む。
命令レキシコンの第1の対応関係にi(1≦i≦n)番目の候補認識結果とマッチングする命令キーワードが含まれるかどうかを検出する第1の検出手段と、
第1の対応関係にi番目の候補認識結果とマッチングする命令キーワードが含まれる場合、i番目の候補認識結果を目標結果として決定する第1の決定手段と、を含み、
第1の対応関係は、少なくとも命令キーワードを含む。
選択的に、この決定モジュール630は、
第1の対応関係にn個の候補認識結果のうちのいずれの候補認識結果とマッチングする命令キーワードも含まれない場合、命令レキシコンの第2の対応関係にi番目の候補認識結果におけるいずれか1文字とマッチングする1文字キーワードが含まれるかどうかを検出する第2の検出手段と、
第2の対応関係にi番目の候補認識結果における文字とマッチングする1文字キーワードが含まれる場合、第2の対応関係における1文字キーワードに対応するインデックス値に基づいて、第1の対応関係においてインデックス値に対応する命令キーワードを検索するキーワード検索手段と、
i番目の候補認識結果を命令キーワードに変換するために必要な操作回数を示すための、i番目の候補認識結果と命令キーワードとの編集距離を決定する第2の決定手段と、
編集距離が所定値より小さい場合、i番目の候補認識結果を目標結果として決定する第3の決定手段と、をさらに含み、
第1の対応関係は、インデックス値と命令キーワードとの対応関係を含み、第2の対応関係は、インデックス値と1文字キーワードとの対応関係を含む。
選択的に、決定モジュール630は、
i(1≦i≦n)番目の候補認識結果の機能テンプレートを分析するテンプレート分析手段と、
音声レキシコンにi番目の候補認識結果における音声キーワードとマッチングするレキシコンキーワードが含まれるかどうかを検出する第3の検出手段と、
音声レキシコンにi番目の候補認識結果における音声キーワードとマッチングするレキシコンキーワードが含まれる場合、i番目の候補認識結果を目標結果として決定する第4の決定手段と、を含み、
音声キーワードは、i番目の候補認識結果における少なくとも1つのキーワードであり、
i番目の候補認識結果は、機能テンプレートと音声キーワードとを含む。
選択的に、決定モジュール630は、
言語モデルに従って、各候補認識結果のパープレキシティを計算するパープレキシティ計算手段と、
n個の候補認識結果のパープレキシティの最小値を決定し、最小値に対応するi番目の候補認識結果を目標結果として決定する第5の決定手段と、を含み、
パープレキシティは、候補認識結果と音声信号との類似度を示すためのものであり、パープレキシティと類似度とが負の相関関係にあり、言語モデルは、少なくとも1つの分野に対応する専用コーパスから生成されたN−gram言語モデルであり、N−gram言語モデルは、現在の単語の前のN−1個(Nは正整数)の単語の生起確率に基づいて、現在の単語の生起確率を決定するために使用される。
また、本願の実施例は、コンピュータ可読記憶媒体を提供している。このコンピュータ可読記憶媒体は、メモリに含まれるコンピュータ可読記憶媒体であってよく、音声認識デバイスに取り付けられておらず、単独で存在するコンピュータ可読記憶媒体であってもよい。コンピュータ可読記憶媒体には、少なくとも1つの命令、少なくとも1つのプログラム、コードセット、又は命令セットが記憶され、この少なくとも1つの命令、少なくとも1つのプログラム、コードセット、又は命令セットがプロセッサによりロードされて実行されることで、上述した様々な方法の実施例で提供された音声認識方法を実現させる。
図8は、本願の一実施例で提供された音声認識デバイスの構成の模式図である。音声認識デバイス700は、中央処理装置(英語:Central Processing Unit、略称:CPU)701と、ランダムアクセスメモリ(英語:random access memory、略称:RAM)702及び読み出し専用メモリ(英語:read−only memory、略称:ROM)703を含めたシステムメモリ704と、システムメモリ704及び中央処理装置701を接続するシステムバス705と、を含む。前記音声認識デバイス700は、コンピュータ内の各部品間の情報の伝送を支援する基本入出力システム(I/Oシステム)706と、オペレーティングシステム713、アプリケーション714、及び他のプログラムモジュール715を記憶するための大容量記憶装置707と、をさらに含む。
前記基本入出力システム706は、情報を表示するためのディスプレイ708と、ユーザが情報を入力するためのマウスやキーボードのような入力デバイス709と、を含む。ここで、前記ディスプレイ708及び入力デバイス709の両方は、システムバス705に接続された入出力コントローラ710を介して中央処理装置701に接続されている。前記基本入出力システム706は、キーボード、マウス、又は電子タッチペンなどの他の複数のデバイスからの入力を受信して処理するための入出力コントローラ710を含んでもよい。同様に、入出力コントローラ710は、ディスプレイ、プリンタ、又は他のタイプの出力デバイスへの出力も提供する。
前記大容量記憶装置707は、システムバス705に接続された大容量記憶コントローラ(図示せず)を介して中央処理装置701に接続されている。前記大容量記憶装置707及びそれに関連するコンピュータ可読媒体は、音声認識デバイス700に対して不揮発性記憶を提供する。つまり、前記大容量記憶装置707は、ハードディスクや読み出し専用光ディスク(英語:Compact Disc Read−Only Memory、略称:CD−ROM)ドライブのようなコンピュータ可読媒体(図示せず)を含んでよい。
一般性を失うことなく、前記コンピュータ可読媒体は、コンピュータ記憶媒体と通信媒体とを含んでよい。コンピュータ記憶媒体は、コンピュータ可読命令、データ構造、プログラムモジュール、又は他のデータなどのような情報を記憶するための任意の方法又は技術によって実現される揮発性及び不揮発性、移動可能な及び移動不可な媒体を含む。コンピュータ記憶媒体は、RAM、ROM、消去可能プログラマブル読み出し専用メモリ(英語:erasable programmable read−only memory、略称:EPROM)、電気的消去可能プログラマブル読み出し専用メモリ(英語:electrically erasable programmable read−only memory、略称:EEPROM)、フラッシュメモリ又は他のソリッドステート記憶技術、CD−ROM、デジタルバーサタイルディスク(英語:Digital Versatile Disc、略称:DVD)又は他の光学的記憶装置、テープカートリッジ、磁気テープ、磁気ディスク記憶装置又は他の磁気記憶装置を含む。もちろん、当業者であれば、前記コンピュータ記憶媒体がこれらに限定されないことが分かる。上記のシステムメモリ704及び大容量記憶装置707を総称してメモリと呼んでもよい。
本願の様々な実施例によれば、前記音声認識デバイス700は、インターネットなどのようなネットワークを介して、ネットワーク上のリモートコンピュータに接続されて実行されてもよい。即ち、音声認識デバイス700は、前記システムバス705に接続されたネットワークインターフェースユニット711を介して、ネットワーク712に接続されてもよく、言い換えれば、ネットワークインターフェースユニット711を使用して、他のタイプのネットワーク又はリモートコンピュータシステム(図示せず)に接続されてもよい。
具体的には、本願の実施例では、音声認識デバイス700は、メモリと、1つ又は複数のプログラムと、をさらに含む。ここで、1つ又は複数のプログラムは、メモリに記憶され、1つ又は複数のプロセッサによって実行されるように構成される。上記の1つ又は複数のプログラムは、上記の音声認識方法を実行するための命令を含む。
選択可能な一実施例では、本願の実施例は、スマートスピーカーとサーバとを含む音声認識システムも提供している。このスマートスピーカーは、図1に示す音声収集デバイスであってもよく、サーバは、図1に示す音声認識デバイスであってもよい。
スマートスピーカーは、音声信号を収集し、前記サーバに前記音声信号を送信する。
サーバは、音声信号を取得し、音声認識アルゴリズムにより前記音声信号を認識して、前記音声信号に対応するテキスト情報であるn(nは1より大きい整数)個の候補認識結果を得、m(mは1より大きい整数)種の選択規則のうち実行順序がj(jの初期値は1)である選択規則により、前記n個の候補認識結果のうち前記音声信号とのマッチング度が最も高い候補認識結果である目標結果を決定し、前記実行順序がjである選択規則により前記目標結果が決定されなかった場合、実行順序がj+1である選択規則により、前記n個の候補認識結果のうちの前記目標結果を決定し、前記スマートスピーカーに前記目標結果を送信する。選択的に、サーバは、上記図3〜図6のいずれかに示す音声認識方法に従って、目標結果の認識を行う。
スマートスピーカーは、さらに、前記目標結果に応じて応答する。この応答は、目標結果に応じて命令の実行を行うこと、目標結果に応じて機能上の応答を行うこと、目標結果に応じて音声会話を行うことの少なくとも1つを含むが、これらに限定されない。
例示的に、目標結果に応じて命令の実行を行うことは、再生、一時停止、前の曲、次の曲の少なくとも1つの命令の実行を含む。
例示的に、目標結果に応じて機能上の応答を行うことは、ある歌手又はある歌曲名又はあるジャンルの歌曲の再生、ある司会者又はある番組名又はあるタイプの音楽番組の再生、音声ナビゲーション、スケジュールリマインダ、翻訳の少なくとも1つの機能上の応答を含む。
例示的に、対応結果に応じて音声会話を行うことは、天気問答、知識問答、娯楽雑談、笑い話解説の少なくとも1つの会話シーンを含む。
当業者であれば理解できるように、上述した実施例の手順の全部又は一部は、ハードウェアによって実行されてもよく、プログラムから関連のハードウェアへ指示することにより実行されてもよい。前記プログラムは、コンピュータ可読記憶媒体に記憶されてもよく、上記の記憶媒体は、読み出し専用メモリ、磁気ディスク、又は光ディスクなどであってよい。
上記は、本願の好ましい実施例にすぎず、本願の保護範囲を限定するものではない。本願の精神と原則内で行われる種々の修正、均等置換え、改善などは全て本願の保護範囲内に含まれるべきである。
610:信号取得モジュール
620:音声認識モジュール
630:決定モジュール
700:音声認識デバイス
701:中央処理装置
702:ランダムアクセスメモリ
703:読み出し専用メモリ
704:システムメモリ
705:システムバス
706:入出力システム
707:大容量記憶装置
708:ディスプレイ
709:入力デバイス
710:入出力コントローラ
711:ネットワークインターフェースユニット
712:ネットワーク
713:オペレーティングシステム
714:アプリケーション
715:他のプログラムモジュール
本願の他の一態様によれば、音声認識装置が提供され、前記装置は、
音声信号を取得する信号取得モジュールと、
音声認識アルゴリズムにより、前記信号取得モジュールで取得された前記音声信号を認識して、前記音声信号に対応するテキスト情報であるn(nは1より大きい整数)個の候補認識結果を得る音声認識モジュールと、
m(mは1より大きい整数)種の選択規則のうち実行順序がj(jの初期値は1)である選択規則により、前記音声認識モジュールで認識された前記n個の候補認識結果のうち前記音声信号とのマッチング度が最も高い候補認識結果である目標結果を決定する決定モジュールと、を含み、
前記決定モジュールは、前記第1の決定モジュールによって、前記実行順序がjである選択規則により前記目標結果が決定されなかった場合、実行順序がj+1である選択規則により、前記n個の候補認識結果のうちの前記目標結果を決定する。
選択可能な一実施例では、本願の実施例は、スマートスピーカーとサーバとを含む音声認識システムも提供している。このスマートスピーカーは、図1に示す音声収集デバイスであってもよく、サーバは、図1に示す音声認識デバイスであってもよい。

Claims (20)

  1. 音声認識方法であって、
    音声信号を取得し、
    音声認識アルゴリズムにより前記音声信号を認識して、前記音声信号に対応するテキスト情報であるn(nは1より大きい整数)個の候補認識結果を得、
    m(mは1より大きい整数)種の選択規則のうち実行順序がj(jの初期値は1)である選択規則により、前記n個の候補認識結果のうち前記音声信号とのマッチング度が最も高い候補認識結果である目標結果を決定し、
    前記実行順序がjである選択規則により前記目標結果が決定されなかった場合、実行順序がj+1である選択規則により、前記n個の候補認識結果のうちの前記目標結果を決定する、
    ことを含むことを特徴とする方法。
  2. 前記m種の選択規則の実行順序がそれぞれのアルゴリズムの複雑さに基づいて決定され、前記実行順序と前記アルゴリズムの複雑さとが正の相関関係にあることを特徴とする請求項1に記載の方法。
  3. 前記m種の選択規則は、命令選択規則と、機能選択規則と、会話選択規則との少なくとも2種を含み、前記命令選択規則のアルゴリズムの複雑さが前記機能選択規則のアルゴリズムの複雑さよりも低く、前記機能選択規則のアルゴリズムの複雑さが前記会話選択規則のアルゴリズムの複雑さよりも低く、
    前記命令選択規則は、命令レキシコンにi(1≦i≦n)番目の候補認識結果とマッチングする命令キーワードが含まれるかどうかに基づいて、前記i番目の候補認識結果が前記目標結果であるかどうかを検出するように音声認識デバイスに指示するためのものであり、
    前記機能選択規則は、音声レキシコンに音声キーワードとマッチングするレキシコンキーワードが含まれるかどうかに基づいて、前記i番目の候補認識結果が前記目標結果であるかどうかを検出するように前記音声認識デバイスに指示するためのものであり、前記音声キーワードは、前記i番目の候補認識結果における少なくとも1つのキーワードであり、
    前記会話選択規則は、トレーニングされた言語モデルに従って、各候補認識結果と前記音声信号との類似度を決定することにより、前記目標結果を選択するように前記音声認識デバイスに指示するためのものである、
    ことを特徴とする請求項1に記載の方法。
  4. 前記実行順序がjである選択規則は前記命令選択規則を含み、前記m種の選択規則のうち実行順序がjである選択規則により、前記n個の候補認識結果のうちの目標結果を決定することは、
    前記命令レキシコンの第1の対応関係に前記i(1≦i≦n)番目の候補認識結果とマッチングする命令キーワードが含まれるかどうかを検出し、
    前記第1の対応関係に前記i番目の候補認識結果とマッチングする命令キーワードが含まれる場合、前記i番目の候補認識結果を前記目標結果として決定する、ことを含み、
    前記第1の対応関係は、少なくとも前記命令キーワードを含む、
    ことを特徴とする請求項3に記載の方法。
  5. 前記命令レキシコンの第1の対応関係に前記i番目の候補認識結果とマッチングする命令キーワードが含まれるかどうかを検出した後、
    前記第1の対応関係に前記n個の候補認識結果のうちのいずれの候補認識結果とマッチングする命令キーワードも含まれない場合、前記命令レキシコンの第2の対応関係に前記i番目の候補認識結果におけるいずれか1文字とマッチングする1文字キーワードが含まれるかどうかを検出し、
    前記第2の対応関係に前記i番目の候補認識結果における文字とマッチングする1文字キーワードが含まれる場合、前記第2の対応関係における前記1文字キーワードに対応するインデックス値に基づいて、前記第1の対応関係において前記インデックス値に対応する命令キーワードを検索し、
    前記i番目の候補認識結果を前記命令キーワードに変換するために必要な操作回数を示すための、前記i番目の候補認識結果と前記命令キーワードとの編集距離を決定し、
    前記編集距離が所定値より小さい場合、前記i番目の候補認識結果を前記目標結果として決定する、ことを含み、
    前記第1の対応関係は、前記インデックス値と前記命令キーワードとの対応関係を含み、前記第2の対応関係は、前記インデックス値と前記1文字キーワードとの対応関係を含む、
    ことを特徴とする請求項4に記載の方法。
  6. 前記実行順序がjである選択規則は前記機能選択規則を含み、前記m種の選択規則のうち実行順序がjである選択規則により、前記n個の候補認識結果のうちの目標結果を決定することは、
    i(1≦i≦n)番目の候補認識結果の機能テンプレートを分析し、
    前記音声レキシコンに前記i番目の候補認識結果における前記音声キーワードとマッチングする前記レキシコンキーワードが含まれるかどうかを検出し、
    前記音声レキシコンに前記i番目の候補認識結果における音声キーワードとマッチングする前記レキシコンキーワードが含まれる場合、前記i番目の候補認識結果を前記目標結果として決定する、を含み、
    前記音声キーワードは、前記i番目の候補認識結果における少なくとも1つのキーワードであり、
    前記i番目の候補認識結果は、前記機能テンプレートと前記音声キーワードとを含む、
    ことを特徴とする請求項3に記載の方法。
  7. 前記実行順序がjである選択規則は前記会話選択規則を含み、前記m種の選択規則のうち実行順序がjである選択規則により、前記n個の候補認識結果のうちの目標結果を決定することは、
    前記言語モデルに従って、各前記候補認識結果のパープレキシティを計算し、
    前記n個の候補認識結果の前記パープレキシティの最小値を決定し、前記最小値に対応する前記i番目の候補認識結果を前記目標結果として決定する、ことを含み、
    前記パープレキシティは、前記候補認識結果と前記音声信号との前記類似度を示すためのものであり、前記パープレキシティと前記類似度とが負の相関関係にあり、前記言語モデルは、少なくとも1つの分野に対応する専用コーパスから生成されたN−gram言語モデルであり、前記N−gram言語モデルは、現在の単語の前のN−1個(Nは正整数)の単語の生起確率に基づいて、前記現在の単語の生起確率を決定するために使用される、
    ことを特徴とする請求項3に記載の方法。
  8. 音声認識装置であって、
    音声信号を取得する信号取得モジュールと、
    音声認識アルゴリズムにより、前記信号取得モジュールで取得された前記音声信号を認識して、前記音声信号に対応するテキスト情報であるn(nは1より大きい整数)個の候補認識結果を得る音声認識モジュールと、
    m(mは1より大きい整数)種の選択規則のうち実行順序がj(jの初期値は1)である選択規則により、前記音声認識モジュールで認識された前記n個の候補認識結果のうち前記音声信号とのマッチング度が最も高い候補認識結果である目標結果を決定する決定モジュールと、を含み、
    前記決定モジュールは、前記第1の決定モジュールによって、前記実行順序がjである選択規則により前記目標結果が決定されなかった場合、実行順序がj+1である選択規則により、前記n個の候補認識結果のうちの前記目標結果を決定する、
    ことを特徴とする装置。
  9. 前記m種の選択規則の実行順序がそれぞれのアルゴリズムの複雑さに基づいて決定され、前記実行順序と前記アルゴリズムの複雑さとが正の相関関係にあることを特徴とする請求項8に記載の装置。
  10. 前記m種の選択規則は、命令選択規則と、機能選択規則と、会話選択規則との少なくとも2種を含み、前記命令選択規則のアルゴリズムの複雑さが前記機能選択規則のアルゴリズムの複雑さよりも低く、前記機能選択規則のアルゴリズムの複雑さが前記会話選択規則のアルゴリズムの複雑さよりも低く、
    前記命令選択規則は、命令レキシコンにi(1≦i≦n)番目の候補認識結果とマッチングする命令キーワードが含まれるかどうかに基づいて、前記i番目の候補認識結果が前記目標結果であるかどうかを検出するように音声認識デバイスに指示するためのものであり、
    前記機能選択規則は、音声レキシコンに音声キーワードとマッチングするレキシコンキーワードが含まれるかどうかに基づいて、前記i番目の候補認識結果が前記目標結果であるかどうかを検出するように前記音声認識デバイスに指示するためのものであり、前記音声キーワードは、前記i番目の候補認識結果における少なくとも1つのキーワードであり、
    前記会話選択規則は、トレーニングされた言語モデルに従って、各候補認識結果と前記音声信号との類似度を決定することにより、前記目標結果を選択するように前記音声認識デバイスに指示するためのものである、
    ことを特徴とする請求項8に記載の装置。
  11. 前記決定モジュールは、
    前記命令レキシコンの第1の対応関係にi(1≦i≦n)番目の候補認識結果とマッチングする命令キーワードが含まれるかどうかを検出する第1の検出手段と、
    前記第1の対応関係に前記i番目の候補認識結果とマッチングする命令キーワードが含まれる場合、前記i番目の候補認識結果を前記目標結果として決定する第1の決定手段と、を含み、
    前記第1の対応関係は、少なくとも前記命令キーワードを含む、
    ことを特徴とする請求項10に記載の装置。
  12. 前記決定モジュールは、
    前記第1の対応関係に前記n個の候補認識結果のうちのいずれの候補認識結果とマッチングする命令キーワードも含まれない場合、前記命令レキシコンの第2の対応関係に前記i番目の候補認識結果におけるいずれか1文字とマッチングする1文字キーワードが含まれるかどうかを検出する第2の検出手段と、
    前記第2の対応関係に前記i番目の候補認識結果における文字とマッチングする1文字キーワードが含まれる場合、前記第2の対応関係における前記1文字キーワードに対応するインデックス値に基づいて、前記第1の対応関係において前記インデックス値に対応する命令キーワードを検索するキーワード検索手段と、
    前記i番目の候補認識結果を前記命令キーワードに変換するために必要な操作回数を示すための、前記i番目の候補認識結果と前記命令キーワードとの編集距離を決定する第2の決定手段と、
    前記編集距離が所定値より小さい場合、前記i番目の候補認識結果を前記目標結果として決定する第3の決定手段と、をさらに含み、
    前記第1の対応関係は、前記インデックス値と前記命令キーワードとの対応関係を含み、前記第2の対応関係は、前記インデックス値と前記1文字キーワードとの対応関係を含む、
    ことを特徴とする請求項11に記載の装置。
  13. 前記決定モジュールは、
    i(1≦i≦n)番目の候補認識結果の機能テンプレートを分析するテンプレート分析手段と、
    音声レキシコンにi番目の候補認識結果における音声キーワードとマッチングするレキシコンキーワードが含まれるかどうかを検出する第3の検出手段と、
    音声レキシコンにi番目の候補認識結果における音声キーワードとマッチングするレキシコンキーワードが含まれる場合、i番目の候補認識結果を目標結果として決定する第4の決定手段と、を含み、
    音声キーワードは、i番目の候補認識結果における少なくとも1つのキーワードであり、
    i番目の候補認識結果は、機能テンプレートと音声キーワードとを含む、
    ことを特徴とする請求項10に記載の装置。
  14. 前記決定モジュールは、
    前記言語モデルに従って、各前記候補認識結果のパープレキシティを計算するパープレキシティ計算手段と、
    前記n個の候補認識結果の前記パープレキシティの最小値を決定し、前記最小値に対応する前記i番目の候補認識結果を前記目標結果として決定する第5の決定手段と、を含み、
    前記パープレキシティは、前記候補認識結果と前記音声信号との前記類似度を示すためのものであり、前記パープレキシティと前記類似度とが負の相関関係にあり、前記言語モデルは、少なくとも1つの分野に対応する専用コーパスから生成されたN−gram言語モデルであり、前記N−gram言語モデルは、現在の単語の前のN−1個(Nは正整数)の単語の生起確率に基づいて、前記現在の単語の生起確率を決定するために使用される、
    ことを特徴とする請求項10に記載の装置。
  15. 音声認識方法であって、
    音声認識デバイスが音声信号を取得し、
    前記音声認識デバイスが、音声認識アルゴリズムにより前記音声信号を認識して、前記音声信号に対応するテキスト情報であるn(nは1より大きい整数)個の候補認識結果を得、
    前記音声認識デバイスが、m(mは1より大きい整数)種の選択規則のうち実行順序がj(jの初期値は1)である選択規則により、前記n個の候補認識結果のうち前記音声信号とのマッチング度が最も高い候補認識結果である目標結果を決定し、
    前記実行順序がjである選択規則により前記目標結果が決定されなかった場合、前記音声認識デバイスが、実行順序がj+1である選択規則により、前記n個の候補認識結果のうちの前記目標結果を決定する、
    ことを含むことを特徴とする方法。
  16. 前記m種の選択規則の実行順序がそれぞれのアルゴリズムの複雑さに基づいて決定され、前記実行順序と前記アルゴリズムの複雑さとが正の相関関係にあることを特徴とする請求項15に記載の方法。
  17. 前記m種の選択規則は、命令選択規則と、機能選択規則と、会話選択規則との少なくとも2種を含み、前記命令選択規則のアルゴリズムの複雑さが前記機能選択規則のアルゴリズムの複雑さよりも低く、前記機能選択規則のアルゴリズムの複雑さが前記会話選択規則のアルゴリズムの複雑さよりも低く、
    前記命令選択規則は、命令レキシコンにi(1≦i≦n)番目の候補認識結果とマッチングする命令キーワードが含まれるかどうかに基づいて、前記i番目の候補認識結果が前記目標結果であるかどうかを検出するように音声認識デバイスに指示するためのものであり、
    前記機能選択規則は、音声レキシコンに音声キーワードとマッチングするレキシコンキーワードが含まれるかどうかに基づいて、前記i番目の候補認識結果が前記目標結果であるかどうかを検出するように前記音声認識デバイスに指示するためのものであり、前記音声キーワードは、前記i番目の候補認識結果における少なくとも1つのキーワードであり、
    前記会話選択規則は、トレーニングされた言語モデルに従って、各候補認識結果と前記音声信号との類似度を決定することにより、前記目標結果を選択するように前記音声認識デバイスに指示するためのものである、
    ことを特徴とする請求項15に記載の方法。
  18. 音声認識デバイスであって、
    少なくとも1つの命令、少なくとも1つのプログラム、コードセット、又は命令セットを記憶したメモリと、
    前記少なくとも1つの命令、前記少なくとも1つのプログラム、前記コードセット、又は前記命令セットをロードして実行することにより、請求項1〜7のいずれか1項に記載の音声認識方法を実現するプロセッサと、
    を含むことを特徴とするデバイス。
  19. コンピュータ可読記憶媒体であって、前記記憶媒体には、少なくとも1つの命令、少なくとも1つのプログラム、コードセット、又は命令セットが記憶され、前記少なくとも1つの命令、前記少なくとも1つのプログラム、前記コードセット、又は前記命令セットがプロセッサによりロードされて実行されることで、請求項1〜7のいずれか1項に記載の音声認識方法を実現させることを特徴とする記憶媒体。
  20. 音声認識システムであって、
    音声信号を収集し、前記サーバに前記音声信号を送信するスマートスピーカーと、
    音声信号を取得し、音声認識アルゴリズムにより前記音声信号を認識して、前記音声信号に対応するテキスト情報であるn(nは1より大きい整数)個の候補認識結果を得、m(mは1より大きい整数)種の選択規則のうち実行順序がj(jの初期値は1)である選択規則により、前記n個の候補認識結果のうち前記音声信号とのマッチング度が最も高い候補認識結果である目標結果を決定し、前記実行順序がjである選択規則により前記目標結果が決定されなかった場合、実行順序がj+1である選択規則により、前記n個の候補認識結果のうちの前記目標結果を決定し、前記スマートスピーカーに前記目標結果を送信するサーバと、を含み、
    前記スマートスピーカーは、前記目標結果に応じて応答する、
    ことを特徴とするシステム。
JP2019560155A 2017-06-29 2018-05-28 音声認識方法、装置、デバイス、及び記憶媒体 Active JP6820058B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201710517737.4 2017-06-29
CN201710517737.4A CN108288468B (zh) 2017-06-29 2017-06-29 语音识别方法及装置
PCT/CN2018/088646 WO2019001194A1 (zh) 2017-06-29 2018-05-28 语音识别方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
JP2020518861A true JP2020518861A (ja) 2020-06-25
JP6820058B2 JP6820058B2 (ja) 2021-01-27

Family

ID=62831578

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019560155A Active JP6820058B2 (ja) 2017-06-29 2018-05-28 音声認識方法、装置、デバイス、及び記憶媒体

Country Status (6)

Country Link
US (1) US11164568B2 (ja)
EP (1) EP3648099B1 (ja)
JP (1) JP6820058B2 (ja)
KR (1) KR102315732B1 (ja)
CN (1) CN108288468B (ja)
WO (1) WO2019001194A1 (ja)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108600911B (zh) * 2018-03-30 2021-05-18 联想(北京)有限公司 一种输出方法及电子设备
CN108922531B (zh) * 2018-07-26 2020-10-27 腾讯科技(北京)有限公司 槽位识别方法、装置、电子设备及存储介质
CN109034418B (zh) * 2018-07-26 2021-05-28 国家电网公司 作业现场信息传输方法及系统
CN109256125B (zh) * 2018-09-29 2022-10-14 阿波罗智联(北京)科技有限公司 语音的离线识别方法、装置与存储介质
CN109634692A (zh) * 2018-10-23 2019-04-16 蔚来汽车有限公司 车载对话系统及用于其的处理方法和系统
CN111198936B (zh) * 2018-11-20 2023-09-15 北京嘀嘀无限科技发展有限公司 一种语音搜索方法、装置、电子设备及存储介质
CN109256133A (zh) * 2018-11-21 2019-01-22 上海玮舟微电子科技有限公司 一种语音交互方法、装置、设备及存储介质
CN109814831A (zh) * 2019-01-16 2019-05-28 平安普惠企业管理有限公司 智能对话方法、电子装置及存储介质
CN109920415A (zh) * 2019-01-17 2019-06-21 平安城市建设科技(深圳)有限公司 基于语音识别的人机问答方法、装置、设备和存储介质
CN109871441A (zh) * 2019-03-13 2019-06-11 北京航空航天大学 一种基于神经网络的导学问答系统及方法
US11158307B1 (en) * 2019-03-25 2021-10-26 Amazon Technologies, Inc. Alternate utterance generation
CN110570839A (zh) * 2019-09-10 2019-12-13 中国人民解放军陆军军医大学第一附属医院 基于人机交互的智能监护系统
CN110827802A (zh) * 2019-10-31 2020-02-21 苏州思必驰信息科技有限公司 语音识别训练和解码方法及装置
CN111028828A (zh) * 2019-12-20 2020-04-17 京东方科技集团股份有限公司 一种基于画屏的语音交互方法、画屏及存储介质
CN111554275B (zh) * 2020-05-15 2023-11-03 深圳前海微众银行股份有限公司 语音识别方法、装置、设备及计算机可读存储介质
CN112151022A (zh) * 2020-09-25 2020-12-29 北京百度网讯科技有限公司 语音识别的优化方法、装置、设备以及存储介质
CN112331207A (zh) * 2020-09-30 2021-02-05 音数汇元(上海)智能科技有限公司 服务内容监控方法、装置、电子设备和存储介质
CN112614490B (zh) * 2020-12-09 2024-04-16 北京罗克维尔斯科技有限公司 生成语音指令的方法、装置、介质、设备、系统及车辆
CN112669848B (zh) * 2020-12-14 2023-12-01 深圳市优必选科技股份有限公司 一种离线语音识别方法、装置、电子设备及存储介质
CN113744736B (zh) * 2021-09-08 2023-12-08 北京声智科技有限公司 命令词识别方法、装置、电子设备及存储介质
WO2023163254A1 (ko) * 2022-02-28 2023-08-31 엘지전자 주식회사 Tv와 리모컨을 포함하는 시스템 및 그 제어 방법

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS57109997A (en) * 1980-12-26 1982-07-08 Tokyo Shibaura Electric Co Word information input device
JP2000200275A (ja) * 1999-01-07 2000-07-18 Hitachi Ltd 翻訳装置、記録媒体
JP2012208218A (ja) * 2011-03-29 2012-10-25 Yamaha Corp 電子機器
JP2014170185A (ja) * 2013-03-05 2014-09-18 Nec Corp 発話コマンド認識システム
JP2014222402A (ja) * 2013-05-13 2014-11-27 日本電信電話株式会社 発話候補生成装置、発話候補生成方法、及び発話候補生成プログラム
JP2015527598A (ja) * 2012-05-23 2015-09-17 ソノズ インコーポレイテッド オーディオコンテンツの試聴
JP2016024759A (ja) * 2014-07-24 2016-02-08 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 言語モデル用の学習テキストを選択する方法及び当該学習テキストを使用して言語モデルを学習する方法、並びに、それらを実行するためのコンピュータ及びコンピュータ・プログラム
JP2016110087A (ja) * 2014-12-02 2016-06-20 三星電子株式会社Samsung Electronics Co.,Ltd. 音声認識方法及び音声認識装置

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2764277B2 (ja) * 1988-09-07 1998-06-11 株式会社日立製作所 音声認識装置
DE10306022B3 (de) * 2003-02-13 2004-02-19 Siemens Ag Dreistufige Einzelworterkennung
CN101345051B (zh) * 2008-08-19 2010-11-10 南京师范大学 带定量参数的地理信息系统语音控制方法
US8489398B1 (en) * 2011-01-14 2013-07-16 Google Inc. Disambiguation of spoken proper names
US20170109676A1 (en) * 2011-05-08 2017-04-20 Panaya Ltd. Generation of Candidate Sequences Using Links Between Nonconsecutively Performed Steps of a Business Process
KR101914548B1 (ko) * 2012-01-05 2018-11-02 엘지전자 주식회사 음성 인식 기능을 구비한 이동 단말기 및 그 검색 결과 제공 방법
KR101971513B1 (ko) * 2012-07-05 2019-04-23 삼성전자주식회사 전자 장치 및 이의 음성 인식 오류 수정 방법
CN103915095B (zh) * 2013-01-06 2017-05-31 华为技术有限公司 语音识别的方法、交互设备、服务器和系统
KR102072826B1 (ko) * 2013-01-31 2020-02-03 삼성전자주식회사 음성 인식 장치 및 응답 정보 제공 방법
US9208779B2 (en) * 2013-09-06 2015-12-08 Google Inc. Mixture of n-gram language models
CN103500579B (zh) * 2013-10-10 2015-12-23 中国联合网络通信集团有限公司 语音识别方法、装置及系统
EP3195307B1 (en) * 2014-09-14 2020-01-29 Google LLC Platform for creating customizable dialog system engines
JP6461308B2 (ja) * 2015-04-16 2019-01-30 三菱電機株式会社 音声認識装置およびリスコアリング装置
US10606846B2 (en) 2015-10-16 2020-03-31 Baidu Usa Llc Systems and methods for human inspired simple question answering (HISQA)
CN106126714A (zh) * 2016-06-30 2016-11-16 联想(北京)有限公司 信息处理方法及信息处理装置
CN106531160A (zh) * 2016-10-26 2017-03-22 安徽省云逸智能科技有限公司 一种基于词网语言模型的连续语音识别系统

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS57109997A (en) * 1980-12-26 1982-07-08 Tokyo Shibaura Electric Co Word information input device
JP2000200275A (ja) * 1999-01-07 2000-07-18 Hitachi Ltd 翻訳装置、記録媒体
JP2012208218A (ja) * 2011-03-29 2012-10-25 Yamaha Corp 電子機器
JP2015527598A (ja) * 2012-05-23 2015-09-17 ソノズ インコーポレイテッド オーディオコンテンツの試聴
JP2014170185A (ja) * 2013-03-05 2014-09-18 Nec Corp 発話コマンド認識システム
JP2014222402A (ja) * 2013-05-13 2014-11-27 日本電信電話株式会社 発話候補生成装置、発話候補生成方法、及び発話候補生成プログラム
JP2016024759A (ja) * 2014-07-24 2016-02-08 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 言語モデル用の学習テキストを選択する方法及び当該学習テキストを使用して言語モデルを学習する方法、並びに、それらを実行するためのコンピュータ及びコンピュータ・プログラム
JP2016110087A (ja) * 2014-12-02 2016-06-20 三星電子株式会社Samsung Electronics Co.,Ltd. 音声認識方法及び音声認識装置

Also Published As

Publication number Publication date
WO2019001194A1 (zh) 2019-01-03
EP3648099B1 (en) 2021-06-30
KR20190120353A (ko) 2019-10-23
KR102315732B1 (ko) 2021-10-21
EP3648099A1 (en) 2020-05-06
CN108288468A (zh) 2018-07-17
US11164568B2 (en) 2021-11-02
US20190385599A1 (en) 2019-12-19
CN108288468B (zh) 2019-07-19
JP6820058B2 (ja) 2021-01-27
EP3648099A4 (en) 2020-07-08

Similar Documents

Publication Publication Date Title
JP6820058B2 (ja) 音声認識方法、装置、デバイス、及び記憶媒体
Gu et al. Insertion-based decoding with automatically inferred generation order
CN110473531B (zh) 语音识别方法、装置、电子设备、系统及存储介质
CN108694940B (zh) 一种语音识别方法、装置及电子设备
CN111090727B (zh) 语言转换处理方法、装置及方言语音交互系统
CN109165302A (zh) 多媒体文件推荐方法及装置
JP4930379B2 (ja) 類似文検索方法、類似文検索システム及び類似文検索用プログラム
US20130346066A1 (en) Joint Decoding of Words and Tags for Conversational Understanding
US10152298B1 (en) Confidence estimation based on frequency
JP7300435B2 (ja) 音声インタラクションするための方法、装置、電子機器、およびコンピュータ読み取り可能な記憶媒体
CN108055617B (zh) 一种麦克风的唤醒方法、装置、终端设备及存储介质
US11881209B2 (en) Electronic device and control method
US11532301B1 (en) Natural language processing
CN113505198B (zh) 关键词驱动的生成式对话回复方法、装置及电子设备
CN112825249A (zh) 语音处理方法和设备
CN110164416B (zh) 一种语音识别方法及其装置、设备和存储介质
WO2024045475A1 (zh) 语音识别方法、装置、设备和介质
CN111898379A (zh) 槽填充模型训练方法和自然语言理解模型
CN111126084B (zh) 数据处理方法、装置、电子设备和存储介质
CN111508497B (zh) 语音识别方法、装置、电子设备及存储介质
US11626107B1 (en) Natural language processing
CN108153875B (zh) 语料处理方法、装置、智能音箱和存储介质
CN108345679B (zh) 一种音视频检索方法、装置、设备及可读存储介质
JP7044856B2 (ja) 増強された一貫性正規化を利用した音声認識モデル学習方法およびシステム
CN115858776B (zh) 一种变体文本分类识别方法、系统、存储介质和电子设备

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191101

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191101

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20201113

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20201130

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20201223

R150 Certificate of patent or registration of utility model

Ref document number: 6820058

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250