JP2016512609A - 自動音声認識のための方法およびシステム - Google Patents

自動音声認識のための方法およびシステム Download PDF

Info

Publication number
JP2016512609A
JP2016512609A JP2015554021A JP2015554021A JP2016512609A JP 2016512609 A JP2016512609 A JP 2016512609A JP 2015554021 A JP2015554021 A JP 2015554021A JP 2015554021 A JP2015554021 A JP 2015554021A JP 2016512609 A JP2016512609 A JP 2016512609A
Authority
JP
Japan
Prior art keywords
word
speech
corpus
language model
classified
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2015554021A
Other languages
English (en)
Inventor
フェン・ラオ
リ・ルウ
ボ・チェン
シュアイ・ユエ
シャン・ジャン
エリュウ・ワン
ダドン・シエ
ルウ・リ
ドゥリン・ルウ
Original Assignee
テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド filed Critical テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド
Publication of JP2016512609A publication Critical patent/JP2016512609A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/197Probabilistic grammars, e.g. word n-grams

Abstract

自動音声認識方法は、1つまたは複数のプロセッサと、これらプロセッサによって実行されるべき1つまたは複数のプログラムを格納するためのメモリとを備えたコンピュータにおいて、生の音声コーパスの分類および計算によって、複数の音声コーパスカテゴリを取得するステップ(801)と、各音声コーパスカテゴリに適用された言語モデル学習によって、複数の音声コーパスカテゴリにそれぞれ対応する、複数の分類された言語モデルを取得するステップ(802)と、分類された各言語モデルに、重み付け補間を実施することによって、補間言語モデルを取得し、補間された複数の分類された言語モデルをマージするステップ(803)と、音響モデルおよび補間言語モデルに従ってデコードリソースを構築するステップ(804)と、デコードリソースを用いて入力音声をデコードし、最も高い確率を有する文字列を、入力音声の認識結果として出力するステップ(805)とを有する。

Description

本願は、2013年1月29日出願の中国特許出願第201310033201.7号、「METHOD AND SYSTEM FOR AUTOMATIC SPEECH RECOGNITION」に対する優先権を主張するものである。引用により、上記中国出願の全内容が本明細書に組み込まれる。
本発明は、自動音声認識(Automatic Speech Recognition,ASR)の技術分野に関し、特に、自動音声認識のための方法およびシステムに関する。
自動音声認識技術は、人間の音声の語彙内容を、コンピュータによって読取り可能な入力文字に変換する技術の一種である。音声認識は、音響モデル学習、言語モデル学習、デコードリソース構築、およびデコードの4つの処理を主に含む複雑な処理フローを有する。図1は、従来の自動音声認識システムでのメイン処理フローの概略図である。図1を参照すると、メイン処理フローは、以下を含む。
ステップ101およびステップ102において、音響モデルを取得するために、音響マテリアルに従って音響モデル学習を実行することと、同様に、言語モデルを取得するために、生のコーパスに従って言語モデル学習を実行することとを必要とする。
上記の音響モデルは、音声認識システムの最も重要な部分のうちの1つであり、主流である音声認識システムのほとんどは、モデルを構築するために隠れマルコフモデル(Hidden Markov Model,HMM)を採用する。HMMは、隠された未知のパラメータを含むマルコフ処理を記述するために使用される統計モデルである。HMMでは、状態は直接的には目に見えないが、状態によって影響を受けたいくつかの変化が目に見える。音声と単音との間の対応確率は、音響モデルとして記述される。上記の単音は、音声の自然な特性に従って分割された最小の音声単位である。音響特性の態様から、単音は、音質の態様から分割された最小の音声単位であり、生理的特性の態様から、有節発音動作が単音を形成する。
上記の言語モデルの主な構造は、文字列sの確率分布p(s)であり、文として現れる文字列sの確率を反映している。wは、文字列sにおけるすべての語を表すと仮定する。すなわち、以下のように表される。
p(s)=p(w1w2w3...wn)=p(w1)p(w2|w1)p(w3|w1w2)...p(wk|w1w2...wk-1)
ステップ103において、上記の音響モデル、言語モデル、およびプリセットされた辞書に従って、デコードリソースが結果的に構築される。上記のデコードリソースは、重み付け有限状態トランスデューサ(Weighted Finite State Transducer,WFST)ネットワークである。
ステップ104において、デコーダに音声を入力する。上記の音声は、構築されているデコードリソースに従ってデコーダによってデコードされる。そして、最も高い確率値を有する文字列を、上記の入力音声の認識結果として出力する。
しかしながら、従来の音声認識技術のほとんどは、一般的な音声認識のためのモデルを構築する普遍的な音声認識アプリケーションに基づいており、この状況では、言語モデルの学習コーパスは、例えば薬の名前、場所の名前等のように、言語モデルの学習コーパスにおいて不明瞭な語がさほど頻繁ではないので、ユーザの音声の癖をある程度良好に反映し、しばしば日常表現にはより良好な認識効果を有しているが、データ収集およびユーザの実際の入力に基づいているので、効果的な確率統計モデルを形成することはできず、言語モデルにおける不明瞭な語に対応する文字列の確率値が非常に低い。よって、ユーザによって発声された不明瞭な語を認識する必要がある場合、データオフセットの問題がしばしば発生する。これは、認識された文字列がユーザによって発声された語ではないこと、換言すれば、不明瞭な語の音声の認識精度が低く、したがって、より良好な認識結果を達成することが困難であることを意味する。
いくつかの実施形態によれば、自動音声認識方法は、1つまたは複数のプロセッサと、これらプロセッサによって実行されるべき1つまたは複数のプログラムを格納するためのメモリとを備えたコンピュータにおいて、生の音声コーパスの分類および計算によって、複数の音声コーパスカテゴリを取得するステップと、各音声コーパスカテゴリに適用された言語モデル学習によって、複数の音声コーパスカテゴリにそれぞれ対応する、複数の分類された言語モデルを取得するステップと、分類された各言語モデルに、重み付け補間を実施することによって、補間言語モデルを取得し、補間された複数の分類された言語モデルをマージするステップと、音響モデルおよび補間言語モデルに従ってデコードリソースを構築するステップと、デコードリソースを用いて入力音声をデコードし、最も高い確率を有する文字列を、入力音声の認識結果として出力するステップとを有する。
いくつかの実施形態によれば、生の音声コーパスの分類および計算によって、複数の音声コーパスカテゴリを取得するステップは、生のコーパスに基づいて、単語間のアフィリエーション行列を計算するステップと、単語頻度-逆文書頻度(term frequency - inverse document frequency,TF-IDF)方法を用いて、生のコーパスから単語特性を抽出するステップと、アフィリエーション行列に基づいて、抽出された単語特性に次元縮小方法を実施するステップと、学習のために、次元縮小後に単語特性を分類器に入力し、複数の音声コーパスカテゴリを出力するステップとをさらに含む。
いくつかの実施形態によれば、生のコーパスに基づいて、単語間のアフィリエーション行列を計算するステップは、式
Figure 2016512609
を用いて、各単語と他の任意の単語との同時発生率を計算し、同時発生率に基づいて同時発生行列を構築するステップであって、ここで、fijは、単語iが単語jよりも前に発生する回数であり、dijは、単語iと単語jとの間の平均距離であり、fiは単語iの単語頻度であり、fjは単語jの単語頻度である、ステップと、同時発生行列に基づいて、式
Figure 2016512609
を用いて、各単語と他の任意の単語との間のアフィリエーション率を計算するステップと、アフィリエーション率に基づいてアフィリエーション行列を構築するステップとをさらに含む。
いくつかの実施形態によれば、次元縮小方法は、主成分分析(principal components analysis,PCA)次元縮小方法である。
いくつかの実施形態によれば、分類器は、サポートベクトルマシン(support vector machine,SVM)分類器である。
いくつかの実施形態によれば、重み付け補間処理は、分類された各言語モデルに対して、それぞれの音声コーパスカテゴリの不明瞭さの度合いに基づいて実施される。音声コーパスカテゴリの不明瞭さの度合いは、重み付け値と正の相関関係にある。
いくつかの実施形態によれば、自動音声認識方法は、1つまたは複数のプロセッサと、これらプロセッサによって実行されるべき1つまたは複数のプログラムを格納するためのメモリとを備えたコンピュータにおいて、生の音声コーパスに適用された言語モデル学習によって、プライマリ言語モデルを取得するステップと、生の音声コーパスの分類および計算によって、複数の音声コーパスカテゴリを取得するステップと、各音声コーパスカテゴリに適用された言語モデル学習によって、複数の音声コーパスカテゴリにそれぞれ対応する、複数の分類された言語モデルを取得するステップと、音響モデルおよびプライマリ言語モデルに従って、プライマリデコードリソースを構築するステップと、複数の分類された言語モデルにそれぞれ従って、複数の分類されたデコードリソースを構築するステップと、プライマリデコードリソースを用いて入力音声をデコードし、最も高い方からn個の確率値を有するn個の文字列を出力するステップと、複数の分類されたデコードリソースの各々を用いてn個の文字列をデコードし、最も高い合成確率を有する文字列を、入力音声の認識結果として出力するステップとを有する。
いくつかの実施形態によれば、複数の分類されたデコードリソースの各々を用いてn個の文字列をデコードし、最も高い合成確率を有する文字列を、入力音声の認識結果として出力するステップは、プライマリデコードリソースを用いてデコードされた各文字列の確率値l(w)を取得するステップと、分類された各デコードリソースを用いてデコードされた各文字列の確率値n(w)を取得するステップと、確率値n(w)に確率値l(w)を乗じて、各文字列の合成確率値p(w)を取得するステップとをさらに含む。
いくつかの実施形態によれば、自動音声認識システムは、1つまたは複数のプロセッサと、これらプロセッサによって実行されるべき1つまたは複数のプログラムを格納するためのメモリと、生の音声コーパスの分類および計算によって、複数の音声コーパスカテゴリを取得するように構成された分類処理モジュールと、各音声コーパスカテゴリに適用された言語モデル学習によって、複数の音声コーパスカテゴリにそれぞれ対応する、複数の分類された言語モデルを取得するように構成された分類言語モデル学習モジュールと、分類された各言語モデルに重み付け補間を実施することによって、補間言語モデルを取得し、補間された複数の分類された言語モデルをマージするように構成された重み付けマージモジュールと、音響モデルおよび補間言語モデルに従ってデコードリソースを構築するように構成されたリソース構築モジュールと、デコードリソースを用いて入力音声をデコードし、最も高い確率を有する文字列を、入力音声の認識結果として出力するように構成されたデコーダとを備える。
いくつかの実施形態によれば、自動音声認識システムは、1つまたは複数のプロセッサと、これらプロセッサによって実行されるべき1つまたは複数のプログラムを格納するためのメモリと、生の音声コーパスに適用された言語モデル学習によって、プライマリ言語モデルを取得するように構成されたプライマリ言語モデル学習モジュールと、生の音声コーパスの分類および計算によって、複数の音声コーパスカテゴリを取得するように構成された分類処理モジュールと、各音声コーパスカテゴリに適用された言語モデル学習によって、複数の音声コーパスカテゴリにそれぞれ対応する、複数の分類された言語モデルを取得するように構成された分類言語モデル学習モジュールと、音響モデルおよびプライマリ言語モデルに従って、プライマリデコードリソースを構築するように構成されたプライマリリソース構築モジュールと、複数の分類された言語モデルにそれぞれ従って、複数の分類されたデコードリソースを構築するように構成された分類リソース構築モジュールと、プライマリデコードリソースを用いて入力音声をデコードし、最も高い方からn個の確率値を有するn個の文字列を出力するように構成されたプライマリデコーダと、複数の分類されたデコードリソースの各々を用いてn個の文字列をデコードし、最も高い合成確率を有する文字列を、入力音声の認識結果として出力するように構成された分類デコーダとを備える。
本発明の前述した特徴および利点は、その追加の特徴および利点と同様に、図面と連携して理解された場合に、好適な実施形態の詳細な説明の結果として以下においてより明確に理解されるであろう。
従来の自動音声認識システムにおけるメイン処理フローの概略図である。 本発明による自動音声認識方法の処理フローチャートである。 本発明による自動音声認識方法の別の処理フローチャートである。 本発明による生のコーパスのためのコーパス分類計算から取得される2つ以上の分類コーパスのうちの異なるカテゴリの具体的な処理フローチャートである。 本発明による音声認識システムの構成概略図である。 本発明による別の音声認識システムの構成概略図である。 図5および図6に記載の分類処理モジュールの構成概略図である。 本発明のいくつかの実施形態に従う自動音声認識方法のフローチャートである。 本発明のいくつかの実施形態に従う自動音声認識方法の別のフローチャートである。 本発明のいくつかの実施形態に従う自動音声認識システム方法のコンピュータ図である。 本発明のいくつかの実施形態に従う自動音声認識方法のさらに別のフローチャートである。 本発明のいくつかの実施形態に従う自動音声認識システム方法の別のコンピュータ図である。
同一の参照符号は、これら図面のいくつかの見方を通じて対応する部分を指している。
実施形態に対する参照が詳細になされ、これらの例は、添付の図面に例示される。以下の詳細な説明では、本明細書で示されている主題の十分な理解を提供するために、多くの具体的な詳細が記載されている。しかしながら、この主題は、これら具体的な詳細無しで実現され得ることが当業者に明らかになるであろう。他の事例では、周知の方法、手順、構成要素、および回路は、実施形態の態様を不必要に不明瞭にしないように、詳細には記載されていない。
以下は、添付の図面および具体的な実施形態と組み合わされて、本発明に対するさらに詳細な説明となるであろう。
図2は、本発明による自動音声認識方法の処理フローチャートである。図2を参照すると、このフローは、以下を含む。
ステップ201において、2つ以上の分類コーパスのうちの異なるカテゴリを取得するために、生のコーパスのコーパス分類計算を実行する。例えば、上記の分類コーパスは、人の名前、場所の名前、コンピュータ用語、医学用語等のような多くのタイプに分割され得る。例えば、「isatis root」は医学用語の分類に属する。用語は、マルチ分類に属し得る。
ステップ202において、2つ以上の対応する分類言語モデルを取得するために、上記のすべての分類コーパスのための言語モデル学習計算を実行する。
ステップ203において、上記の分類言語モデルの各々のための重み付け補間の処理を、分類の不明瞭さの度合いに基づいて実行する。このモデルの中では、分類の不明瞭さの度合いと、この分類に対応する重み付け値とが、正の相関関係を有する。換言すれば、不明瞭さの度合いが高くなるほど、対応する重み付け値が高くなる。そして、重み付け補間の処理後、補間言語モデルを取得するために、分類言語モデルがマージされる。したがって、補間言語モデルでは、不明瞭な語に対応する文字列の確率値がそれに対応して増加し、したがって、一般に使用されている語に対応する文字列の確率値との差分が減少し、不明瞭な語の音声認識確率が向上するであろう。
ステップ204において、音響モデルおよび上記の補間言語モデルに従ってデコードリソースを構築する。ここで、音響モデルは良好に学習されており、本発明は、現在の音響モデルを直接使用できることが仮定される。さらに、この分野における専門家は、デコードリソースを構築する処理において、デコードリソースを構築するために、辞書の関与が必要であることを理解している。
ステップ205において、上記のデコードリソースに従って、入力音声をデコードし、最も高い確率値を有する文字列を、上記の入力音声の認識結果として出力する。
図3は、本発明による自動音声認識方法の別の処理フローチャートである。図3を参照すると、このフローは、以下を含む。
ステップ301において、プライマリ言語モデルを取得するために、生のコーパスに従って、言語モデル学習の計算を実行する。ここで、言語モデル学習は、従来の規則的な言語モデル学習である。
ステップ302において、2つ以上の分類コーパスのうちの異なるカテゴリを取得するために、生のコーパスのコーパス分類計算を実行する。
ステップ303において、2つ以上の対応する分類言語モデルを取得するために、上記のすべての分類コーパスのための言語モデル学習計算を実行する。
ステップ304からステップ305において、音響モデルおよび上記のプライマリ言語モデルに従って、プライマリデコードリソースを構築し、上記の分類言語モデルの各々に従って、対応する分類デコードリソースを構築する。上記のプライマリデコードリソースは、第1のデコード中に使用され、上記の分類デコードリソースは、第2のデコード中に使用される。
ステップ306において、上記のプライマリデコードリソースに従って、入力音声をデコードする。これは、第1のデコードである。そして、確率値l(w)が上位n個にランクしているn個の文字列を出力する。上記の確率値l(w)は、プライマリ言語モデルにおける音声に対応する文字列の確率値である。
ステップ307において、すべての分類言語モデルにおけるすべての文字列の確率値n(w)を取得するために、上記の様々な分類言語モデルに順に対応する様々なデコードリソースに従って、上記のn個の文字列をそれぞれデコードする。ここで、m個の分類言語モデルが存在し、n×m個の確率値n(w)が取得されるであろうと仮定される。その後、n×m個の合成確率p(w)を得るために、プライマリ言語モデルにおけるこのような文字列の確率値l(w)を、各分類言語モデルにおける各文字列の確率値n(w)に乗じ、最も高い合成確率p(w)を有する文字列を、上記の入力音声の認識結果として出力する。
上記のステップ201およびステップ302において、2つ以上の分類コーパスのうちの異なるカテゴリを取得するために、生のコーパスのコーパス分類計算を実行する、上記の具体的な方式は、図4に図示されたようなものであり、具体的には以下を含む。
ステップ401において、生のコーパスに従って、単語間のアフィニティ行列を計算する。
上記の生のコーパスは、学習テキストである。本発明は、単語のアフィニティ行列(同時発生行列という用語としても知られている)を構築することによって、単語間の意味的な関係を記述する。人間の認識レベルでは、単語は常に、他の単語に関連付けられているが、分離して存在していない。この関係は、例えば、「医者」という語を聞くことで、人が、「患者」または「看護婦」に関連付けたり、「猫」という語を聞くことで、人が「犬」を関連付けたり、「男の子」という語を聞くことで、人が「女の子」を関連付けたり、「ドリンク」が「水」に関連付けられるような活性化効果によって表現され得る。
よって、このステップ401では、まず、すべての単語と別の単語との単語同時発生を計算する。具体的な内容は以下を含む。
すべての単語と別の単語との単語同時発生を計算するために、式
Figure 2016512609
に従って生のコーパスを分析し、単語間の単語同時発生行列を構築する。ここで、上記のfijは、単語iが単語jよりも前に発生する回数であり、dijは、単語iと単語jとの間の平均距離であり、fiは、単語iの単語頻度であり、fjは、単語jの単語頻度である。
上記の単語同時発生行列および式
Figure 2016512609
に従って、単語間のアフィニティを計算し、単語間のアフィニティ行列を構築する。
上記のアフィニティは、2つの単語のインリンク間のみならず、アウトリンク間のオーバラップ部分の相乗平均として定義される。当然ながら、アフィニティ行列という用語は、対称行列であり、無向ネットワークである。隣接の順序において、前面における単語は、基本的には、同義語、同義語に近い、または、非常に関連した単語である。アフィニティネットワークでは、2つの結節点の間の端部のアフィニティがより強ければ、より関連性があり、アフィニティは非常に弱く、2つの結節点の間に端部さえも存在しないのであれば、それらがほとんど無関係であることを示す。Aijを計算することによって、単語間の共分散行列を構築できる。この共分散行列は、アフィニティ行列であり、このアフィニティ行列では、アフィニティによってソートされることによって、非常に小さなアフィニティの部分が省略され得る。これによって、オリジナルの生のコーパスの単語特性ベクトルの次元と比較して、このアフィニティ行列の次元は、はるかに小さい。
ステップ402において、単語頻度-逆文書頻度(TF-IDF)の方法を用いて、生のコーパスから単語特性を抽出する。
本発明のテキスト分類で適用される主なモデルは、テキストのベクトル空間モデル(Vector Space Model,VSM)である。VSMの基本概念は、テキストの特性ベクトル<W1, W2, W3, ..., Wn>を用いてテキストを表現することである。この中で、Wiはi番目の特性項目の重みである。よって、VSMに基づく分類の重要なステップは、テキストから、分類を反映する有効な特性をどのように抽出するかである。このステップ402では、本発明は、TF-IDF特性を用いて、wの重みを示す生のコーパスから単語特性を抽出するTF-IDF方法を採用する。
所与のファイルにおいて、単語頻度(term frequency,TF)は、所与の単語がこのファイルにおいて現れる回数を指す。この数は、しばしば、長いファイルに対する誤った傾向を回避するために、標準化されるであろう。この単語が重要であるか否かに関わらず、同じ単語は、短いファイルよりも、長いファイルにおいて、より高い頻度を有し得る。逆文書頻度(inverse document frequency,IDF)は、単語の一般化可能な重要度のスケールである。具体的な単語のIDFは、ファイルの合計数を、この単語を含むファイルの数で除し、結果として得られた商の対数を取ることによって計算され得る。具体的なファイルにおける高い単語頻度のみならず、ファイル全体におけるこの単語の低いファイル頻度が、高い重み付けを持つTF-IDFを生成し得る。したがって、TF-IDFは、ファイル内に特別な単語を維持し、高い頻度の単語をフィルタする傾向にある。したがって、このTF-IDF方法を用いて、生のコーパスから、比較的不明瞭な語の単語特性を抽出し得る。
ステップ403において、上記のアフィニティ行列に従って、抽出された単語特性の次元縮小を処理するために、次元縮小方法を使用し得る。
このステップ403では、上記の次元縮小方法は様々であり得る。しかしながら、好適な実施形態では、実施するために主成分分析(PCA)次元縮小方法を適用し得る。ステップ402において抽出された単語特性ベクトルの次元が高いことによって、例えば、ここでは、N次元であると仮定されるが、ステップ401では、より低い次元のアフィニティ行列が言及され、例えば、ここでは、M次元であると仮定される。Nは、Mよりもはるかに大きい。その後、次元縮小の処理後、上記のN次元の単語特性ベクトルの次元が、M次元に縮小される。換言すれば、次元縮小の処理によって、ノイズデータの影響を低減し、時間複雑性および空間複雑性等を低減し、小さなアフィニティしか有さない単語の組合せがフィルタされ得る。
ステップ404において、次元縮小の処理後、学習のために単語特性を分類器に入力し、2つ以上の分類コーパスのうちの異なるカテゴリを出力する。
分類器は一種のコンピュータプログラムであり、入力データを既知の分類に自動的に分類し得る。このステップ404では、上記の分類器は、現在のある分類器を採用し得る。例えば、好適な実施形態では、上記の分類器は、サポートベクトルマシン(SVM)分類器である。テスト後、20の分類における本発明の分類結果は、92%の精度に達し得る。
当然ながら、本発明は、図4に記載の生のコーパスのコーパス分類計算を実行する方法に加えて、生のコーパスを分類するためのその他の現在のコーパス分類計算方法をも適用し得る。しかしながら、図4に記載の方法は、より高い精度およびより速い速度を有している。
また、前述した方法に対応して、本発明は、前述した方法を実施するための音声認識システムを開示する。
図5は、本発明による、ある音声認識システムの構成概略図である。図5を参照すると、このシステムは、分類処理モジュール501と、分類言語モデル学習モジュール502と、重み付けマージモジュール503と、リソース構築モジュール504と、デコーダ505とを含む。
分類処理モジュール501は、2つ以上の分類コーパスのうちの異なるカテゴリを取得するために、生のコーパスのためのコーパス分類計算を実行するように構成される。
分類言語モデル学習モジュール502は、2つ以上の対応する分類言語モデルを取得するために、上記のすべての分類コーパスのための言語モデル学習計算を実行するように構成される。
重み付けマージモジュール503は、分類の不明瞭さの度合いに基づいて、上記の分類言語モデルの各々のための重み付け補間の処理を実行するように構成される。このモデルの中では、分類の不明瞭さの度合いと、この分類に対応する重み付け値とが、正の相関関係を有する。換言すれば、不明瞭さの度合いが高くなるほど、対応する重み付け値が高くなる。そして、補間言語モデルを取得するために、重み付け補間の処理後、分類言語モデルがマージされる。
リソース構築モジュール504は、音響モデルおよび上記の補間言語モデルに従ってデコードリソースを構築するように構成される。
デコーダ505は、上記のデコードリソースに従って、入力音声をデコードし、最も高い確率値を有する文字列を、上記の入力音声の認識結果として出力するように構成される。
図6は、本発明による別の音声認識システムの構成概略図である。図6を参照すると、このシステムは、プライマリ言語モデル学習モジュール601と、分類処理モジュール602と、分類言語モデル学習モジュール603と、プライマリリソース構築モジュール604と、分類リソース構築モジュール605と、第1デコーダ606と、第2デコーダ607とを含む。
プライマリ言語モデル学習モジュール601は、プライマリ言語モデルを取得するために、生のコーパスに従って、言語モデル学習の計算を実行するように構成される。ここで、言語モデル学習は、従来の規則的な言語モデル学習である。
分類処理モジュール602は、2つ以上の分類コーパスのうちの異なるカテゴリを取得するために、生のコーパスのコーパス分類計算を実行するように構成される。
分類言語モデル学習モジュール603は、2つ以上の対応する分類言語モデルを取得するために、上記のすべての分類コーパスのための言語モデル学習計算を実行するように構成される。
プライマリリソース構築モジュール604は、音響モデルおよび上記のプライマリ言語モデルに従って、プライマリデコードリソースを構築するように構成される。
分類リソース構築モジュール605は、上記の様々な分類言語モデルに従って、対応する分類デコードリソースを構築するように構成される。
第1デコーダ606は、上記のプライマリデコードリソースに従って、入力音声をデコードし、確率値l(w)が上位n個にランクしているn個の文字列を出力するように構成される。
第2デコーダ607は、上記の様々な分類言語モデルに順に対応する様々な分類デコードリソースに従って、すべての分類言語モデルにおけるすべての文字列の確率値n(w)を取得するために、上記のn個の文字列をそれぞれデコードし、合成確率p(w)を得るために、プライマリ言語モデルにおけるこのような文字列の確率値l(w)を、各分類言語モデルにおける各文字列の確率値n(w)に乗じ、最も高い合成確率p(w)を有する文字列を、上記の入力音声の認識結果として出力するように構成される。
図7は、図5および図6に記載の分類処理モジュールの構成概略図である。図7を参照すると、上記の分類処理モジュールは、具体的には、アフィニティ行列モジュール701と、特性抽出モジュール702と、次元縮小モジュール703と、分類器704とを含む。
アフィニティ行列モジュール701は、生のコーパスに従って、単語間のアフィニティ行列を計算するように構成される。具体的な計算方法に関しては、前述したステップ401およびステップ404を参照されたい。
特性抽出モジュール702は、生のコーパスから単語特性を抽出するためにTF-IDF方法を用いるように構成される。
次元縮小モジュール703は、上記のアフィニティ行列に従って、抽出された単語特性の次元縮小を処理するために、次元縮小方法を使用するように構成される。好適な実施形態では、上記の次元縮小モジュールは、PCA次元縮小モジュールである。
分類器704は、次元縮小の処理後、学習のために単語特性を分類器に入力し、2つ以上の分類コーパスのうちの異なるカテゴリを出力するように構成される。好適な実施形態では、上記の分類器は、SVM分類器である。
本発明による音声認識方法およびシステムは、垂直場における音声認識、音声キーワードの認識、および音声Q&Aシステム等の技術分野において適用可能である。さらに、これは、埋込式プラットフォームおよびPCプラットフォームを含む複数のプラットフォームをサポートし得る。
図8は、本発明のいくつかの実施形態に従う自動音声認識方法のフローチャートである。自動音声認識方法は、1つまたは複数のプロセッサと、これらプロセッサによって実行されるべき1つまたは複数のプログラムを格納するためのメモリとを備えたコンピュータにおいて、生の音声コーパスの分類および計算によって、複数の音声コーパスカテゴリを取得するステップ801と、各音声コーパスカテゴリに適用された言語モデル学習によって、複数の音声コーパスカテゴリにそれぞれ対応する、複数の分類された言語モデルを取得するステップ802と、分類された各言語モデルに、重み付け補間を実施することによって、補間言語モデルを取得し、補間された複数の分類された言語モデルをマージするステップ803と、音響モデルおよび補間言語モデルに従ってデコードリソースを構築するステップ804と、デコードリソースを用いて入力音声をデコードし、最も高い確率を有する文字列を、入力音声の認識結果として出力するステップ805とを有する。
図9は、本発明のいくつかの実施形態に従う自動音声認識方法の別のフローチャートである。生の音声コーパスの分類および計算によって、複数の音声コーパスカテゴリを取得するステップは、生のコーパスに基づいて、単語間のアフィリエーション行列を計算するステップ901と、単語頻度-逆文書頻度(TF-IDF)方法を用いて、生のコーパスから単語特性を抽出するステップ902と、アフィリエーション行列に基づいて、抽出された単語特性に次元縮小方法を実施するステップと、学習のために、次元縮小後に単語特性を分類器に入力するステップ903と、複数の音声コーパスカテゴリを出力するステップ904とをさらに含む。
図10は、本発明のいくつかの実施形態に従う自動音声認識システム方法のコンピュータ図解である。自動音声認識システムは、CPU 1002と、ディスプレイ1003と、ネットワークインターフェース1004と、入力デバイス1005と、メモリ1006と、オペレーティングシステム1010と、ネットワーク通信モジュール1012と、ユーザインターフェースモジュール1014と、生の音声コーパスの分類および計算によって、複数の音声コーパスカテゴリを取得するように構成された分類処理モジュール1016と、各音声コーパスカテゴリに適用された言語モデル学習によって、複数の音声コーパスカテゴリにそれぞれ対応する、複数の分類された言語モデルを取得するように構成された分類言語モデル学習モジュール1050と、分類された各言語モデルに、重み付け補間を実施することによって、補間言語モデルを取得し、補間された複数の分類された言語モデルをマージするように構成された重み付けマージモジュール1052と、音響モデルおよび補間言語モデルに従ってデコードリソースを構築するように構成されたリソース構築モジュール1054と、デコードリソースを用いて入力音声をデコードし、最も高い確率を有する文字列を、入力音声の認識結果として出力するように構成されたデコーダ1056とを備える。分類処理モジュール1016は、生のコーパスに基づいて、単語間のアフィリエーション行列を計算するように構成されたアフィリエーション行列モジュール1018と、単語頻度-逆文書頻度(TF-IDF)方法を用いて、生のコーパスから単語特性を抽出するように構成された特性抽出モジュール1020と、アフィリエーション行列に基づいて、抽出された単語特性に次元縮小方法を実施するように構成された次元縮小モジュール1022と、次元縮小後に単語特性を学習し、複数の音声コーパスカテゴリを出力するように構成された分類器1024とをさらに備える。
図11は、本発明のいくつかの実施形態に従う自動音声認識方法のさらに別のフローチャートである。自動音声認識方法は、生の音声コーパスに適用された言語モデル学習によって、プライマリ言語モデルを取得するステップ1101と、生の音声コーパスの分類および計算によって、複数の音声コーパスカテゴリを取得するステップ1102と、各音声コーパスカテゴリに適用された言語モデル学習によって、複数の音声コーパスカテゴリにそれぞれ対応する、複数の分類された言語モデルを取得するステップ1103と、音響モデルおよびプライマリ言語モデルに従って、プライマリデコードリソースを構築するステップ1104と、複数の分類された言語モデルにそれぞれ従って、複数の分類されたデコードリソースを構築するステップ1105と、プライマリデコードリソースを用いて入力音声をデコードし、最も高い方からn個の確率値を有するn個の文字列を出力するステップ1106と、複数の分類されたデコードリソースの各々を用いてn個の文字列をデコードし、最も高い合成確率を有する文字列を、入力音声の認識結果として出力するステップ1107とを有する。
図12は、本発明のいくつかの実施形態に従う自動音声認識システム方法の別のコンピュータ図解である。自動音声認識システムは、CPU 1202と、ディスプレイ1203と、ネットワークインターフェース1204と、入力デバイス1205と、メモリ1206と、オペレーションシステム1210と、ネットワーク通信モジュール1212と、ユーザインターフェースモジュール1214と、生の音声コーパスに適用された言語モデル学習によって、プライマリ言語モデルを取得するように構成されたプライマリ言語モデル学習モジュール1216と、生の音声コーパスの分類および計算によって、複数の音声コーパスカテゴリを取得するように構成された分類処理モジュール1218と、各音声コーパスカテゴリに適用された言語モデル学習によって、複数の音声コーパスカテゴリにそれぞれ対応する、複数の分類された言語モデルを取得するように構成された分類言語モデル学習モジュール1250と、音響モデルおよびプライマリ言語モデルに従って、プライマリデコードリソースを構築するように構成されたプライマリリソース構築モジュール1252と、複数の分類された言語モデルにそれぞれ従って、複数の分類されたデコードリソースを構築するように構成された分類リソース構築モジュール1254と、プライマリデコードリソースを用いて入力音声をデコードし、最も高い方からn個の確率値を有するn個の文字列を出力するように構成されたプライマリデコーダ1256と、複数の分類されたデコードリソースの各々を用いてn個の文字列をデコードし、最も高い合成確率を有する文字列を、入力音声の認識結果として出力するように構成された分類デコーダ1258とを備える。分類処理モジュール1218は、生のコーパスに基づいて、単語間のアフィリエーション行列を計算するように構成されたアフィリエーション行列モジュール1220と、単語頻度-逆文書頻度(TF-IDF)方法を用いて、生のコーパスから単語特性を抽出するように構成された特性抽出モジュール1222と、アフィリエーション行列に基づいて、抽出された単語特性に次元縮小方法を実施するように構成された次元縮小モジュール1224と、次元縮小後に単語特性を学習し、複数の音声コーパスカテゴリを出力するように構成された分類器1226とをさらに備える。
特定の実施形態が前述されたが、本発明をこれら特定の実施形態に限定することは意図されていないことが理解されるであろう。一方、本発明は、添付された特許請求の範囲の精神および範囲内にある代替例、修正例、および均等物を含んでいる。本明細書において示された主題の完全な理解を提供するために、多くの具体的な詳細が記載されている。しかしながら、この主題は、これら具体的な詳細無しで実現され得ることが当業者には明白であろう。他の事例では、周知の方法、手順、構成要素、および回路は、実施形態の態様を不必要に不明瞭にしないように、詳細には記載されていない。
本明細書における本発明の記載において使用される用語は、特定の実施形態を記載することだけを目的とし、本発明を限定することは意図されていない。本発明および添付された特許請求の範囲の記載において使用されているように、単数形である「a」、「an」、および「the」は、そうではないと明確にコンテキストが示していないのであれば、複数形をも同様に含むことが意図されている。本明細書において使用されるような用語「および/または」は、関連付けられて列挙された項目のうちの1つまたは複数のうちの任意およびすべての可能な組合せを称し、かつ包含していることもまた理解されるであろう。「含む」、「含んでいる」、「備える」、および/または、「備えている」といった用語は、本明細書において使用されている場合、述べられた特徴、動作、要素、および/または、構成要素の存在を明示しているが、1つまたは複数のその他の特徴、動作、要素、構成要素、および/またはこれらのグループの存在または追加を除外していない、ということがさらに理解されるであろう。
本明細書で使用されるように、「〜であれば」という用語は、コンテキストに依存して、先に述べられた条件文が真「である場合」または「であれば」または「であると判定することに応じて」または「であるとの判定に従って」または「であることを検知することに応じて」を意味するように解釈され得る。同様に、「[先に述べられた条件文が真]であると判定されたのであれば」または「[先に述べられた条件文が真]であれば」または「[先に述べられた条件文が真]である場合」という句は、コンテキストに依存して、先に述べられた条件文が真「であると判定されると」または「であると判定することに応じて」または「であるとの判定に従って」または「であると検知されると」または「であることを検知することに応じて」を意味するように解釈され得る。
様々な図面のうちのいくつかは、多くの論理ステージを特定の順序で例示しているが、順序に依存しないステージが再び順序付けられ、他のステージが組み合わされるか、または分割され得る。いくつかの再順序付けまたは別のグルーピングが具体的に述べられているが、その他のものが当業者に対して明らかになるであろうから、代替例の網羅的なリストを示してはいない。さらに、これらステージは、ハードウェア、ファームウェア、ソフトウェア、またはこれらの任意の組合せで実現され得ることが認識されよう。
前述した記載は、説明を目的として、特定の実施形態に関して記載されている。しかしながら、上記の例示的な議論は、網羅的であることも、または、開示された正確な形態に本発明を限定することも意図されていない。上記の教示を考慮して、多くの修正例および変形例が実現可能である。実施形態は、本発明およびその現実的な応用の原理を最も良く説明し、それによって、他の当業者が、本発明および様々な実施形態を、様々な修正とともに、考慮されている特定の用途に適合されたものとして最も良く利用できるようにするために、選択および記載される。
501 分類処理モジュール
502 分類言語モデル学習モジュール
503 重み付けマージモジュール
504 リソース構築モジュール
505 デコーダ
601 プライマリ言語モデル学習モジュール
602 分類処理モジュール
603 分類言語モデル学習モジュール
604 プライマリリソース構築モジュール
605 分類リソース構築モジュール
606 第1デコーダ
607 第2デコーダ
701 アフィニティ行列モジュール
702 特性抽出モジュール
703 次元縮小モジュール
704 分類器
1000 コンピュータ
1002 CPU
1003 ディスプレイ
1004 ネットワークインターフェース
1005 入力デバイス
1006 メモリ
1010 オペレーティングシステム
1012 ネットワーク通信モジュール
1014 ユーザインターフェースモジュール
1016 分類処理モジュール
1018 アフィリエーション行列モジュール
1020 特性抽出モジュール
1022 次元縮小モジュール
1024 分類器
1050 分類言語モデル学習モジュール
1052 重み付けマージモジュール
1054 リソース構築モジュール
1056 デコーダ
1200 コンピュータ
1202 CPU
1203 ディスプレイ
1204 ネットワークインターフェース
1205 入力デバイス
1206 メモリ
1210 オペレーティングシステム
1212 ネットワーク通信モジュール
1214 ユーザインターフェースモジュール
1216 プライマリ言語モデル学習モジュール
1218 分類処理モジュール
1220 アフィリエーション行列モジュール
1222 特性抽出モジュール
1224 次元縮小モジュール
1226 分類器
1250 分類言語モデル学習モジュール
1252 プライマリリソース構築モジュール
1254 分類リソース構築モジュール
1256 プライマリデコーダ
1258 分類デコーダ
いくつかの実施形態によれば、自動音声認識方法は、1つまたは複数のプロセッサと、これらプロセッサによって実行されるべき1つまたは複数のプログラムを格納するためのメモリとを備えたコンピュータにおいて、生の音声コーパスの分類および計算によって、複数の音声コーパスカテゴリを取得するステップと、各音声コーパスカテゴリに適用された言語モデル学習によって、複数の音声コーパスカテゴリにそれぞれ対応する、複数の分類された言語モデルを取得するステップと、分類された各言語モデルに、重み付け補間を実施することによって、補間言語モデルを取得し、補間された複数の分類された言語モデルをマージするステップと、音響モデルおよび補間言語モデルに従ってデコードリソースを構築するステップと、デコードリソースを用いて入力音声をデコードし、最も高い確率を有する文字列を、入力音声の認識結果として出力するステップとを有し、ここで、重み付け補間処理は、分類された各言語モデルに対して、それぞれの音声コーパスカテゴリの不明瞭さの度合いに基づいて実施され、音声コーパスカテゴリの不明瞭さの度合いは、重み付け値と正の相関関係にある
いくつかの実施形態によれば、分類器は、サポートベクトルマシン(support vector machine,SVM)分類器である
いくつかの実施形態によれば、自動音声認識システムは、1つまたは複数のプロセッサと、これらプロセッサによって実行されるべき1つまたは複数のプログラムを格納するためのメモリと、生の音声コーパスの分類および計算によって、複数の音声コーパスカテゴリを取得するように構成された分類処理モジュールと、各音声コーパスカテゴリに適用された言語モデル学習によって、複数の音声コーパスカテゴリにそれぞれ対応する、複数の分類された言語モデルを取得するように構成された分類言語モデル学習モジュールと、分類された各言語モデルに重み付け補間を実施することによって、補間言語モデルを取得し、補間された複数の分類された言語モデルをマージするように構成された重み付けマージモジュールと、音響モデルおよび補間言語モデルに従ってデコードリソースを構築するように構成されたリソース構築モジュールと、デコードリソースを用いて入力音声をデコードし、最も高い確率を有する文字列を、入力音声の認識結果として出力するように構成されたデコーダとを備え、ここで、重み付け補間処理は、分類された各言語モデルに対して、それぞれの音声コーパスカテゴリの不明瞭さの度合いに基づいて実施され、音声コーパスカテゴリの不明瞭さの度合いは、重み付け値と正の相関関係にある

Claims (22)

  1. 自動音声認識方法であって、
    1つまたは複数のプロセッサと、前記プロセッサによって実行されるべき1つまたは複数のプログラムを格納するためのメモリとを備えたコンピュータにおいて、
    生の音声コーパスの分類および計算によって、複数の音声コーパスカテゴリを取得するステップと、
    各音声コーパスカテゴリに適用された言語モデル学習によって、前記複数の音声コーパスカテゴリにそれぞれ対応する、複数の分類された言語モデルを取得するステップと、
    分類された各言語モデルに、重み付け補間を実施することによって、補間言語モデルを取得し、補間された複数の分類された言語モデルをマージするステップと、
    音響モデルおよび前記補間言語モデルに従ってデコードリソースを構築するステップと、
    前記デコードリソースを用いて入力音声をデコードし、最も高い確率を有する文字列を、前記入力音声の認識結果として出力するステップと
    を有する自動音声認識方法。
  2. 生の音声コーパスの分類および計算によって、複数の音声コーパスカテゴリを取得する前記ステップが、
    前記生のコーパスに基づいて、単語間のアフィリエーション行列を計算するステップと、
    単語頻度−逆文書頻度(TF−IDF)方法を用いて、前記生のコーパスから単語特性を抽出するステップと、
    前記アフィリエーション行列に基づいて、抽出された前記単語特性に次元縮小方法を実施するステップと、
    学習のために、次元縮小後に前記単語特性を分類器に入力し、前記複数の音声コーパスカテゴリを出力するステップと
    をさらに含む、請求項1に記載の方法。
  3. 前記生のコーパスに基づいて、単語間のアフィリエーション行列を計算する前記ステップが、

    Figure 2016512609
    を用いて、各単語と他の任意の単語との間の同時発生率を計算し、前記同時発生率に基づいて同時発生行列を構築するステップであって、fijは、単語iが単語jよりも前に発生する回数であり、dijは、単語iと単語jとの間の平均距離であり、fは単語iの単語頻度であり、fは単語jの単語頻度である、ステップと、
    前記同時発生行列に基づいて、式
    Figure 2016512609
    を用いて、各単語と他の任意の単語との間のアフィリエーション率を計算するステップと、
    前記アフィリエーション率に基づいて前記アフィリエーション行列を構築するステップと
    をさらに含む、請求項2に記載の方法。
  4. 前記次元縮小方法が、主成分分析(PCA)次元縮小方法である、請求項2に記載の方法。
  5. 前記分類器が、サポートベクトルマシン(SVM)分類器である、請求項2に記載の方法。
  6. 前記重み付け補間の処理が、前記各音声コーパスカテゴリの不明瞭さの度合いに基づいて、分類された各言語モデルに対して実施され、
    前記音声コーパスカテゴリの前記不明瞭さの度合いは、重み付け値と正の相関関係にある、請求項1に記載の方法。
  7. 自動音声認識方法であって、
    1つまたは複数のプロセッサと、前記プロセッサによって実行されるべき1つまたは複数のプログラムを格納するためのメモリとを備えたコンピュータにおいて、
    生の音声コーパスに適用された言語モデル学習によって、プライマリ言語モデルを取得するステップと、
    前記生の音声コーパスの分類および計算によって、複数の音声コーパスカテゴリを取得するステップと、
    各音声コーパスカテゴリに適用された言語モデル学習によって、前記複数の音声コーパスカテゴリにそれぞれ対応する、複数の分類された言語モデルを取得するステップと、
    音響モデルおよび前記プライマリ言語モデルに従って、プライマリデコードリソースを構築するステップと、
    前記複数の分類された言語モデルにそれぞれ従って、複数の分類されたデコードリソースを構築するステップと、
    前記プライマリデコードリソースを用いて入力音声をデコードし、最も高い方からn個の確率値を有するn個の文字列を出力するステップと、
    前記複数の分類されたデコードリソースの各々を用いて前記n個の文字列をデコードし、最も高い合成確率を有する文字列を、前記入力音声の認識結果として出力するステップと
    を有する方法。
  8. 前記生の音声コーパスの分類および計算によって、複数の音声コーパスカテゴリを取得する前記ステップが、
    前記生のコーパスに基づいて、単語間のアフィリエーション行列を計算するステップと、
    単語頻度−逆文書頻度(TF−IDF)方法を用いて、前記生のコーパスから単語特性を抽出するステップと、
    前記アフィリエーション行列に基づいて、抽出された前記単語特性に次元縮小方法を実施するステップと、
    学習のために、次元縮小後に前記単語特性を分類器に入力し、前記複数の音声コーパスカテゴリを出力するステップと
    をさらに含む、請求項7に記載の方法。
  9. 前記生のコーパスに基づいて、単語間のアフィリエーション行列を計算する前記ステップが、

    Figure 2016512609
    を用いて、各単語と他の任意の単語との間の同時発生率を計算し、前記同時発生率に基づいて同時発生行列を構築するステップであって、fijは、単語iが単語jよりも前に発生する回数であり、dijは、単語iと単語jとの間の平均距離であり、fは単語iの単語頻度であり、fは単語jの単語頻度である、ステップと、
    前記同時発生行列に基づいて、式
    Figure 2016512609
    を用いて、各単語と他の任意の単語との間のアフィリエーション率を計算するステップと、
    前記アフィリエーション率に基づいて前記アフィリエーション行列を構築するステップと
    をさらに含む、請求項8に記載の方法。
  10. 前記次元縮小方法が、主成分分析(PCA)次元縮小方法である、請求項8に記載の方法。
  11. 前記分類器が、サポートベクトルマシン(SVM)分類器である、請求項8に記載の方法。
  12. 前記複数の分類されたデコードリソースの各々を用いて前記n個の文字列をデコードし、最も高い合成確率を有する文字列を、前記入力音声の認識結果として出力する前記ステップが、
    前記プライマリデコードリソースを用いてデコードされた各文字列の確率値l(w)を取得するステップと、
    分類された各デコードリソースを用いてデコードされた各文字列の確率値n(w)を取得するステップと、
    前記確率値n(w)に前記確率値l(w)を乗じて、各文字列の合成確率値p(w)を取得するステップと
    をさらに含む、請求項7に記載の方法。
  13. 自動音声認識システムであって、
    1つまたは複数のプロセッサと、
    前記プロセッサによって実行されるべき1つまたは複数のプログラムを格納するためのメモリと、
    生の音声コーパスの分類および計算によって、複数の音声コーパスカテゴリを取得するように構成された分類処理モジュールと、
    各音声コーパスカテゴリに適用された言語モデル学習によって、前記複数の音声コーパスカテゴリにそれぞれ対応する、複数の分類された言語モデルを取得するように構成された分類言語モデル学習モジュールと、
    分類された各言語モデルに、重み付け補間を実施することによって、補間言語モデルを取得し、補間された複数の分類された言語モデルをマージするように構成された重み付けマージモジュールと、
    音響モデルおよび前記補間言語モデルに従ってデコードリソースを構築するように構成されたリソース構築モジュールと、
    前記デコードリソースを用いて入力音声をデコードし、最も高い確率を有する文字列を、前記入力音声の認識結果として出力するように構成されたデコーダと
    を備える自動音声認識システム。
  14. 前記分類処理モジュールが、
    前記生のコーパスに基づいて、単語間のアフィリエーション行列を計算するように構成されたアフィリエーション行列モジュールと、
    単語頻度−逆文書頻度(TF−IDF)方法を用いて、前記生のコーパスから単語特性を抽出するように構成された特性抽出モジュールと、
    前記アフィリエーション行列に基づいて、抽出された前記単語特性に次元縮小方法を実施するように構成された次元縮小モジュールと、
    次元縮小後に前記単語特性を学習し、前記複数の音声コーパスカテゴリを出力するように構成された分類器と
    をさらに備える、請求項13に記載のシステム。
  15. 前記次元縮小モジュールが、主成分分析(PCA)次元縮小モジュールである、請求項14に記載のシステム。
  16. 前記分類器が、サポートベクトルマシン(SVM)分類器である、請求項14に記載のシステム。
  17. 前記重み付け補間が、前記各音声コーパスカテゴリの不明瞭さの度合いに基づいて、分類された各言語モデルに対して実施され、
    前記音声コーパスカテゴリの前記不明瞭さの度合いは、重み付け値と正の相関関係にある、請求項13に記載のシステム。
  18. 自動音声認識システムであって、
    1つまたは複数のプロセッサと、
    前記プロセッサによって実行されるべき1つまたは複数のプログラムを格納するためのメモリと、
    生の音声コーパスに適用された言語モデル学習によって、プライマリ言語モデルを取得するように構成されたプライマリ言語モデル学習モジュールと、
    前記生の音声コーパスの分類および計算によって、複数の音声コーパスカテゴリを取得するように構成された分類処理モジュールと、
    各音声コーパスカテゴリに適用された言語モデル学習によって、前記複数の音声コーパスカテゴリにそれぞれ対応する、複数の分類された言語モデルを取得するように構成された分類言語モデル学習モジュールと、
    音響モデルおよび前記プライマリ言語モデルに従って、プライマリデコードリソースを構築するように構成されたプライマリリソース構築モジュールと、
    前記複数の分類された言語モデルにそれぞれ従って、複数の分類されたデコードリソースを構築するように構成された分類リソース構築モジュールと、
    前記プライマリデコードリソースを用いて入力音声をデコードし、最も高い方からn個の確率値を有するn個の文字列を出力するように構成されたプライマリデコーダと、
    前記複数の分類されたデコードリソースの各々を用いて前記n個の文字列をデコードし、最も高い合成確率を有する文字列を、前記入力音声の認識結果として出力するように構成された分類デコーダと
    を備える自動音声認識システム。
  19. 前記分類処理モジュールが、
    前記生のコーパスに基づいて、単語間のアフィリエーション行列を計算するように構成されたアフィリエーション行列モジュールと、
    単語頻度−逆文書頻度(TF−IDF)方法を用いて、前記生のコーパスから単語特性を抽出するように構成された特性抽出モジュールと、
    前記アフィリエーション行列に基づいて、抽出された前記単語特性に次元縮小方法を実施するように構成された次元縮小モジュールと、
    次元縮小後に前記単語特性を学習し、前記複数の音声コーパスカテゴリを出力するように構成された分類器と
    をさらに備える、請求項18に記載のシステム。
  20. 前記次元縮小モジュールが、主成分分析(PCA)次元縮小モジュールである、請求項18に記載のシステム。
  21. 前記分類器が、サポートベクトルマシン(SVM)分類器である、請求項18に記載のシステム。
  22. 前記複数の分類されたデコードリソースの各々を用いて前記n個の文字列をデコードし、最も高い合成確率を有する文字列を、前記入力音声の認識結果として出力することが、
    前記プライマリデコードリソースを用いてデコードされた各文字列の確率値l(w)を取得することと、
    分類された各デコードリソースを用いてデコードされた各文字列の確率値n(w)を取得することと、
    前記確率値n(w)に前記確率値l(w)を乗じて、各文字列の合成確率値p(w)を取得することと
    をさらに含む、請求項18に記載のシステム。
JP2015554021A 2013-01-29 2013-11-07 自動音声認識のための方法およびシステム Pending JP2016512609A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201310033201.7A CN103971675B (zh) 2013-01-29 2013-01-29 自动语音识别方法和系统
CN201310033201.7 2013-01-29
PCT/CN2013/086707 WO2014117555A1 (en) 2013-01-29 2013-11-07 Method and system for automatic speech recognition

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2016232328A Division JP6436494B2 (ja) 2013-01-29 2016-11-30 自動音声認識のための方法およびシステム

Publications (1)

Publication Number Publication Date
JP2016512609A true JP2016512609A (ja) 2016-04-28

Family

ID=51241094

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2015554021A Pending JP2016512609A (ja) 2013-01-29 2013-11-07 自動音声認識のための方法およびシステム
JP2016232328A Active JP6436494B2 (ja) 2013-01-29 2016-11-30 自動音声認識のための方法およびシステム

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2016232328A Active JP6436494B2 (ja) 2013-01-29 2016-11-30 自動音声認識のための方法およびシステム

Country Status (6)

Country Link
JP (2) JP2016512609A (ja)
CN (1) CN103971675B (ja)
CA (1) CA2899537C (ja)
SG (1) SG11201505402RA (ja)
TW (1) TWI536364B (ja)
WO (1) WO2014117555A1 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220062349A (ko) * 2019-10-16 2022-05-16 아이플라이텍 캄파니 리미티드 디코딩 네트워크 구축 방법, 음성 인식 방법, 디바이스 및 장치, 및 저장 매체
KR102616598B1 (ko) * 2023-05-30 2023-12-22 주식회사 엘솔루 번역 자막을 이용한 원문 자막 병렬 데이터 생성 방법
KR102620070B1 (ko) * 2022-10-13 2024-01-02 주식회사 타이렐 상황 인지에 따른 자율발화 시스템
KR102626954B1 (ko) * 2023-04-20 2024-01-18 주식회사 덴컴 치과용 음성 인식 장치 및 이를 이용한 방법
KR102632872B1 (ko) * 2023-05-22 2024-02-05 주식회사 포지큐브 음성인식 오류 교정 방법 및 그 시스템
KR102648689B1 (ko) * 2023-05-26 2024-03-18 주식회사 액션파워 텍스트 오류를 검출하는 방법

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9697821B2 (en) 2013-01-29 2017-07-04 Tencent Technology (Shenzhen) Company Limited Method and system for building a topic specific language model for use in automatic speech recognition
US9990917B2 (en) * 2015-04-13 2018-06-05 Intel Corporation Method and system of random access compression of transducer data for automatic speech recognition decoding
CN105654945B (zh) * 2015-10-29 2020-03-06 乐融致新电子科技(天津)有限公司 一种语言模型的训练方法及装置、设备
CN105304084B (zh) * 2015-11-13 2020-04-24 深圳狗尾草智能科技有限公司 一种实现机器人记忆主人强相关信息的方法
CN107195299A (zh) * 2016-03-14 2017-09-22 株式会社东芝 训练神经网络声学模型的方法和装置及语音识别方法和装置
CN106128454A (zh) * 2016-07-08 2016-11-16 成都之达科技有限公司 基于车联网的语音信号匹配方法
CN106202045B (zh) * 2016-07-08 2019-04-02 成都之达科技有限公司 基于车联网的专项语音识别方法
CN108288467B (zh) * 2017-06-07 2020-07-14 腾讯科技(深圳)有限公司 一种语音识别方法、装置及语音识别引擎
CN110019832B (zh) * 2017-09-29 2023-02-24 阿里巴巴集团控股有限公司 语言模型的获取方法和装置
CN110111780B (zh) * 2018-01-31 2023-04-25 阿里巴巴集团控股有限公司 数据处理方法和服务器
JP2019208138A (ja) * 2018-05-29 2019-12-05 住友電気工業株式会社 発話認識装置、及びコンピュータプログラム
TWI714078B (zh) * 2019-05-07 2020-12-21 國立高雄大學 基於深度學習之大數據分析平台排程系統及方法
CN110310086B (zh) * 2019-06-06 2022-04-05 安徽淘云科技有限公司 辅助背诵提醒方法、设备和存储介质
CN110634469B (zh) * 2019-09-27 2022-03-11 腾讯科技(深圳)有限公司 基于人工智能的语音信号处理方法、装置及存储介质
CN111540343B (zh) * 2020-03-17 2021-02-05 北京捷通华声科技股份有限公司 一种语料识别方法和装置
CN112562640B (zh) * 2020-12-01 2024-04-12 北京声智科技有限公司 多语言语音识别方法、装置、系统及计算机可读存储介质
CN115148210A (zh) 2021-03-30 2022-10-04 纬创资通股份有限公司 语音辨识系统及语音辨识方法
CN113178190A (zh) * 2021-05-14 2021-07-27 山东浪潮科学研究院有限公司 一种基于元学习提高生僻字识别的端到端自动语音识别算法

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2938866B1 (ja) * 1998-08-28 1999-08-25 株式会社エイ・ティ・アール音声翻訳通信研究所 統計的言語モデル生成装置及び音声認識装置
JP3660512B2 (ja) * 1998-12-07 2005-06-15 日本電信電話株式会社 音声認識方法、その装置及びプログラム記録媒体
JP3547350B2 (ja) * 1999-09-28 2004-07-28 Kddi株式会社 連続音声認識装置
JP4067776B2 (ja) * 2001-03-13 2008-03-26 三菱電機株式会社 言語モデル構成装置及び音声認識装置
JP4034602B2 (ja) * 2002-06-17 2008-01-16 富士通株式会社 データ分類装置、データ分類装置の能動学習方法及び能動学習プログラム
EP1450350A1 (en) * 2003-02-20 2004-08-25 Sony International (Europe) GmbH Method for Recognizing Speech with attributes
US8412521B2 (en) * 2004-08-20 2013-04-02 Multimodal Technologies, Llc Discriminative training of document transcription system
US7729911B2 (en) * 2005-09-27 2010-06-01 General Motors Llc Speech recognition method and system
CN101329868B (zh) * 2008-07-31 2011-06-01 林超 一种针对地区语言使用偏好的语音识别优化系统及其方法
GB0905457D0 (en) * 2009-03-30 2009-05-13 Touchtype Ltd System and method for inputting text into electronic devices
KR101478146B1 (ko) * 2011-12-15 2015-01-02 한국전자통신연구원 화자 그룹 기반 음성인식 장치 및 방법
CN102800314B (zh) * 2012-07-17 2014-03-19 广东外语外贸大学 具有反馈指导的英语句子识别与评价系统及其方法

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220062349A (ko) * 2019-10-16 2022-05-16 아이플라이텍 캄파니 리미티드 디코딩 네트워크 구축 방법, 음성 인식 방법, 디바이스 및 장치, 및 저장 매체
JP2022548718A (ja) * 2019-10-16 2022-11-21 アイフライテック カンパニー,リミテッド 復号化ネットワーク構築方法、音声認識方法、装置、設備及び記憶媒体
JP7278477B2 (ja) 2019-10-16 2023-05-19 アイフライテック カンパニー,リミテッド 復号化ネットワーク構築方法、音声認識方法、装置、設備及び記憶媒体
KR102576505B1 (ko) 2019-10-16 2023-09-08 아이플라이텍 캄파니 리미티드 디코딩 네트워크 구축 방법, 음성 인식 방법, 디바이스 및 장치, 및 저장 매체
KR102620070B1 (ko) * 2022-10-13 2024-01-02 주식회사 타이렐 상황 인지에 따른 자율발화 시스템
KR102626954B1 (ko) * 2023-04-20 2024-01-18 주식회사 덴컴 치과용 음성 인식 장치 및 이를 이용한 방법
KR102632872B1 (ko) * 2023-05-22 2024-02-05 주식회사 포지큐브 음성인식 오류 교정 방법 및 그 시스템
KR102648689B1 (ko) * 2023-05-26 2024-03-18 주식회사 액션파워 텍스트 오류를 검출하는 방법
KR102616598B1 (ko) * 2023-05-30 2023-12-22 주식회사 엘솔루 번역 자막을 이용한 원문 자막 병렬 데이터 생성 방법

Also Published As

Publication number Publication date
CN103971675B (zh) 2016-03-02
TW201430832A (zh) 2014-08-01
JP2017049612A (ja) 2017-03-09
WO2014117555A1 (en) 2014-08-07
SG11201505402RA (en) 2015-08-28
JP6436494B2 (ja) 2018-12-12
CN103971675A (zh) 2014-08-06
CA2899537A1 (en) 2014-08-07
TWI536364B (zh) 2016-06-01
CA2899537C (en) 2018-08-07

Similar Documents

Publication Publication Date Title
JP6436494B2 (ja) 自動音声認識のための方法およびシステム
US9697821B2 (en) Method and system for building a topic specific language model for use in automatic speech recognition
US10192545B2 (en) Language modeling based on spoken and unspeakable corpuses
WO2019153737A1 (zh) 用于对评论进行评估的方法、装置、设备和存储介质
WO2018157789A1 (zh) 一种语音识别的方法、计算机、存储介质以及电子装置
JP5901001B1 (ja) 音響言語モデルトレーニングのための方法およびデバイス
JP6440732B2 (ja) 機械学習に基づく自動タスク分類
WO2018214486A1 (zh) 一种多文档摘要生成的方法、装置和终端
WO2018223796A1 (zh) 语音识别方法、存储介质及语音识别设备
CN107729313B (zh) 基于深度神经网络的多音字读音的判别方法和装置
US10242670B2 (en) Syntactic re-ranking of potential transcriptions during automatic speech recognition
JP2023535709A (ja) 言語表現モデルシステム、事前訓練方法、装置、機器及び媒体
US11763816B1 (en) Natural language processing policies
US10592542B2 (en) Document ranking by contextual vectors from natural language query
Pimentel et al. Phonotactic complexity and its trade-offs
CN113656660B (zh) 跨模态数据的匹配方法、装置、设备及介质
JP2018194902A (ja) 生成装置、生成方法および生成プログラム
CN112836016B (zh) 会议纪要生成方法、装置、设备和存储介质
KR102540665B1 (ko) 한국어 언어 모델에 기반한 핵심문장 추출장치 및 그 방법
US9251135B2 (en) Correcting N-gram probabilities by page view information
Bost et al. Multiple topic identification in human/human conversations
CN112632234A (zh) 人机交互方法、装置、智能机器人和存储介质
CN110866106A (zh) 一种文本推荐方法及相关设备
CN113377965B (zh) 感知文本关键词的方法及相关装置
CN116842168B (zh) 跨领域问题处理方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160301

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160601

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160830

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20170328