JP2004347732A - Automatic language identification method and system - Google Patents
Automatic language identification method and system Download PDFInfo
- Publication number
- JP2004347732A JP2004347732A JP2003142736A JP2003142736A JP2004347732A JP 2004347732 A JP2004347732 A JP 2004347732A JP 2003142736 A JP2003142736 A JP 2003142736A JP 2003142736 A JP2003142736 A JP 2003142736A JP 2004347732 A JP2004347732 A JP 2004347732A
- Authority
- JP
- Japan
- Prior art keywords
- natural language
- language
- model
- unit
- likelihood
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
Description
【0001】
【発明の属する技術分野】
本発明は、映像コンテンツ等の音声をインデクシングするための言語自動識別方法及び装置に関し、多言語音声インデクシング、多言語デイクテーション、多言語検索、多言語翻訳、自動翻訳電話、自然言語処理などに適用されるものである。
【0002】
【従来の技術】
近年の音声認識アルゴリズムの進歩とコンピュータの飛躍的な性能向上により、様々な応用が可能な音声認識エンジンが開発されている(例えば、非特許文献1参照)。
一方、近年のインターネットのグローバル化並びにブロードバンドネットワークの進展に伴い、音声を含む映像コンテンツの流通が盛んとなり、多言語間の検索や自動翻訳の通信の需要が増加している。しかし、従来の多言語間通信方法では、発信者が言語を指定するか、若しくは受信者が何の言語かを判断して、発信内容が翻訳される。また、発信者、若しくは受信者が言語を指定する際には、各言語に対応する機能カードの差し換え、スイッチの切り替え、画面選択、マウスボタン選択などによる方法などが用いられる。
【0003】
【非特許文献1】
野田喜昭ほか、「マルチメディア時代を支える音声認識技術」、NTT R&D Vol.49,No.3,2000,P.142〜147
【0004】
【発明が解決しようとする課題】
従来技術による言語識別方法では、人手に頼らざるを得ないため、多言語コンテンツの言語を識別することは不便であり、また、人手に頼るため時間と費用がかかる上、多言語に長けた専門家に頼らざるを得ないという問題がある。
従って、本発明は上記従来技術の問題点を解決するため、映像コンテンツ等の音声等をインデクシングするための言語を自動的に識別する方法及び装置を提供することを目的とする。
【0005】
【課題を解決するための手段】
上記目的を達成するために、本発明の言語自動識別方法は、多言語コンテンツの音声をインデクシングする際に、複数言語の自然言語用音響モデルと自然言語用言語モデルの自然言語用発音辞書を用いて、入力される自然言語の尤度を並列にまたは一括に計算し、尤度比較あるいは最大尤度となる適用辞書により、入力された言語をリアルタイムで自動的に識別することを特徴とするものである。
【0006】
また、本発明の言語自動識別装置においては、入力されたコンテンツの音声の信号を分析して解析を行う音声分析手段と、A自然言語の音声認識に用いるA自然言語用音響モデルとA自然言語の統計的モデルであるA自然言語用言語モデルとのA自然言語用発音辞書と、前記分析して解析された音声について、A自然言語用発音辞書を探索するA自然言語用探索手段と、探索された結果のA言語の尤度を計算するA自然言語用尤度計算手段と、B自然言語の音声認識に用いるB自然言語用音響モデルとB自然言語の統計的モデルであるB自然言語用言語モデルとのB自然言語用発音辞書と、前記分析して解析された音声について、B自然言語用発音辞書を採索するB自然言語用探索手段と、探索された結果のB言語の尤度を計算するB自然言語用尤度計算手段と、並列処理計算されたA自然言語の尤度とB自然言語の尤度を比較し、言語を決定する尤度比較判定手段を備えることを特徴とする。
【0007】
また、本発明の言語自動識別装置においては入力されたコンテンツの音声の信号を分析して解析を行う音声分析手段と、A自然言語の音声認識に用いるA自然言語用音響モデルとA自然言語の統計的モデルであるA自然言語用言語モデルとのA自然言語用発音辞書と、B自然言語の音声認識に用いるB自然言語用音響モデルとB自然言語の統計的モデルであるB自然言語用言語モデルとのB自然言語用発音辞書と、前記分析して解析された音声について、A自然言語用発音辞書とB自然言語用発音辞書を用いて、GMM手法等により一括に尤度を計算し、最大尤度をとる適用辞書から言語を決定するGMM尤度計算手段とを備えることを特徴とする。
【0008】
さらには、本発明の言語自動識別装置においては、発話毎に自然言語が入れ代わることに対応するための発話区間を判定する発話区間判定手段を備えることを特徴とする。
【0009】
さらには、本発明の言語自動識別装置においては、A自然言語学習用音声データよりA自然言語用音響モデルの生成、及びB自然言語学習用音声データよりB自然言語用音響モデルの生成を処理することができる複数言語に対応することが可能な音響モデル生成手段から成る音響モデルオフライン処理手段を備えている。
【0010】
さらには、本発明の言語自動識別装置においては、A自然言語学習用テキストデータよりA自然言語用統計的言語モデルの生成、及びB自然言語学習用テキストデータよりB自然言語用統計的言語モデルの生成を処理することができる複数言語に対応することが可能な言語モデル生成手段から成る言語モデルオフライン処理手段を備えている。
【0011】
【発明の実施の形態】
以下、図面を用いて本発明の実施例を説明する。
図1は、本発明による第1の実施例の全体構成図である。図1において、10はコンテンツ、11はコンテンツ入力部、12は音響信号識別部、13は言語自動識別装置、17は大語彙連続音声認識処理部、18は言語処理部、19は情報統合部、20はメタデータ出力部、21はメタデータである。言語自動識別装置13は、音声分析部131、A自然言語用音響モデル144とA自然言語用言語モデル154とのA自然言語用発音辞書132、A自然言語用探索部133、A自然言語用尤度計算郡134、B自然言語用音響モデル145とB自然言語用言語モデル155とのB自然言語用発音辞書135、B自然言語用探索部136、B自然言語用尤度計算部137、尤度比較判定部138で構成されている。なお、言語自動識別装置13に、11〜12、17〜20の各部の一部又は全部を含めることでもよい。
【0012】
A自然言語用発音辞書132のA自然言語用音響モデル144及びA自然言語用言語モデル154は、A自然言語が識別できればよく、大語彙連続音声認識処理部17に用意されるモデルほど大規模である必要はない。B自然言語用発音辞書135のB自然言語用音響モデル145及びB自然言語用言語モデル155についても同様である。以下では、A自然言語が日本語、B自然言語が英語であるとする。
【0013】
図2に、図1の実施例の処理フローチャートを示す。例えば、日本語と英語を含むニュースコンテンツ10がブロードバンドネットワークなどを通じてコンテンツ入力部11へと入力される(ステップ201)。コンテンツ入力部11によりニュースコンテンツ10の音信号をA/D変換し、音響信号識別部12により発声区間をセグメンテーションして音声言語処理すべき音声の区間とBGM(バック・グランド・ミュージック)やノイズなどその他の音響信号の区間に切り分ける(ステップ202)。
【0014】
音声分析部131では、上記切り分けられた音声の信号を分析して解析を行い、例えば、サンプリング周波数:16KHz、ハミング窓:20ms、フレーム周期10msで分析を行い、16次LPCケプストラム、Δケプストラム、対数パワー、Δ対数パワーを含む34次元等の特徴バラメータを抽出する(ステップ203)。
【0015】
音声分析部131で抽出された音声の特徴パラメータは、それぞれA自然言語用探索部133とB自然言語用探索部136に与えられる。例えば、音声が「では、シアトルTNN放送局のセイムさんに現地の声を聞いてみたいと思います。」の場合、A自然言語用探索部(日本語用探索部)133により、予め適切に日本語認識用に準備された日本語用音響モデル144と日本語用言語モデル154の日本語用発音辞書132を用いてビームサーチの方法で尤度のスコアの高い部分木を残す枝刈りを行い(ステップ204)、A自然言語用尤度計算部(日本語用尤度計算部)134で尤度の計算を行い、スコアの高い「では」をスコアと共に尤度比較判定部138に送る(ステップ205)。
【0016】
同時に、B自然言語用探索部(英語用探索部)136により、予め適切に英語用に準備された英語用音響モデル145と英語用言語モデル155の英語用発音辞書135を用いて、同様にビームサーチの方法で尤度のスコアの高い部分木を残す枝刈りを行い(ステップ206)、英語用尤度計算部137で尤度の計算を行い、スコアの高い例えば「dewater」をスコアと共に尤度比較判定部138に送る(ステップ207)。
【0017】
上記A自然言語用探索部133とA自然言語用尤度計算部134や、B自然言語用探索部136とB自然言語用尤度計算部137での処理は、通常の音声認識と基本的に同様である。
【0018】
A自然言語用探索部133とA自然言語用尤度計算部134及びB自然言語用探索部136とB自然言語用尤度計算部137により並列処理で計算された日本語「では」の尤度スコアと英語「dewater」の尤度スコアが、尤度比較判定部138で比較計算され(ステップ208)、スコアの高い「では」が決定され、すなわち、日本語が決定され、大語彙連続音声認識処理部17に送られる。
【0019】
大語彙連続音声認識処理部17は、複数言語(ここでは日本語と英語)の音声認識エンジンで構成されており、「では」で始まる一連の音声を、日本語の音声認識エンジンを用いて高速、高精度で認識し(ステップ209)、例えば漢字かな混じり文字列を得、されに読み、品詞情報等を付して言語処理部18に送る。言語処理部18では音声認識されたテキストの内容語に対して予めコーパスにおける共起情報から獲得した概念ベクトルに基づく方法などを用いてトピックセグメンテーションを行い、検索アクセスにとって有用な固有表現などの関連情報の付与を行い情報統合部19に送る(ステップ210)。情報統合部19では音声認識結果と言語処理結果およびその他の音響信号の情報を統合してメタデータ出力部20に送り(ステップ211)、メタデータ21が利用しやすいXML形式のファイルとして保存される(ステップ212)。
【0020】
図3は、本発明の第2の実施例の主要部の構成図である。本実施例は、尤度比較判定部138と大語彙連続音声認識処理部17との間に発話区間判定部16を追加したもので、それ以外の構成は図1と同様である。
【0021】
例えば、音声が
「では、シアトルTNN放送局のセイムさんに現地の声を聞いてみたいと思います。」、
[Mr.Seim,How do they appreciate Ichiro’s achievement in Seattle?][Congraulations Ichiro.]
…
…
[Thankyou,Mr.Seim.]
「シアトルTNN放送局のセイムさんにお話しを伺いました。」
と日本語から英語、そして英語から日本語へと変わるようなコンテンツ10が入力されるとする。
【0022】
この場合、文頭「では、…」で始まる音声の言語は、先の第1の実施例で説明したように、日本語と識別され、日本語として処理される。ここで、発話区間判定部16により、「…と思います。」を語尾の無音区間および言語モデルにより文末であると判断し、発話区間判定部16からフィードバックにより、A自然言語用探索部(日本語用探索部)133及びB自然言語用探索部(英語用探索部)136では、音声分析部131からの「Mr」の音声分析結果から音声を再び処理するようにする。
【0023】
A自然言語用音響モデル(日本語用音響モデル)144とA自然言語用言語モデル(日本語用言語モデル)154のA自然言語用発音辞書(日本語用発音辞書)132を用いて、A自然言語用探索部(日本語用探索部)133によりビームサーチの方法で尤度のスコアの高い部分木を残す枝刈りを行い、A自然言語用尤度計算部(日本語用尤度計算部)134で尤度を計算を行い、スコアの高い「ミスター」がスコアと共に尤度比較判定部138に送られる。同時に、B自然言語用音響モデル(英語用音響モデル)145とB自然言語用言語モデル(英語用言語モデル)155のB自然言語用発音辞書(英語用発音辞書)135を用いて、B自然言語用探索部(英語用探索部)136によりビームサーチの方法で尤度のスコアの高い部分木を残す枝刈りを行い、B自然言語尤度計算部(英語用尤度計算部)137で尤度を計算を行い、スコアの高い[Mr」がスコアと共に尤度比較判定部138に送られる。並列処理で計算された日本語「ミスター」の尤度スコアと英語「Mr」の尤度スコアが、尤度比較判定部138で比較計算され、スコアの高い「Mr」が決定される。したがって、大語彙連続音声認識処理部17では、英語の音声認識エンジンを用いて、「Mr」で始まる音声が処理される。
【0024】
同様に、次に発話区間判定部16により、「…Seattle?」が文末であることを判断した場合、音声分析部131からの「Congratulations」の音声分析結果から再び処理されることになる。以下、各発話毎の文単位での当該言語による処理が進むことになる。
【0025】
この第2の実施例によれば、映像コンテンツの音声をインデクシングするために入力された自然言語を、発話毎に自然言語が入れ代わることに対応して自動的に識別することが可能になる。
【0026】
図4に、A自然言語用音響モデル144及びB自然言語用音響モデル145を生成する一実施例の構成図を示す。図4において、14は音響モデルオフライン処理部であり、音響モデル生成部141、A自然言語学習用音声データベース142、B自然言語学習用音声データベース143で構成されている。
【0027】
音響モデルオフライン処理部14では、A自然言語学習用音声データベース142、B自然言語学習用音声データベース143にある音声データをクラスクリングして各言語の音節構造を考慮した音素クラスタをつくり、音響モデル生成部141により、各言語に従ったガーベジを作り音響モデルの適応化を行い、A自然言語用音響モデル144、B自然言語用音響モデル145を各々オフラインで作成する。
【0028】
音響モデルオフライン処理部14を用いることにより、複数の自然言語を含む映像コンテンツの音声をインデクシングする際に、その複数言語に対応することが可能な音響モデルの生成を行うことができ、入力された自然言語を、各発話毎に自然言語が入れ代わることに対応して自動的に識別することができるようになる。
【0029】
図5に、A自然言語用言語モデル154とB自然言語用言語モデル155を生成する一実施例の構成図を示す。図5において、15は言語モデルオフライン処理部であり、言語モデル生成部151、A自然言語学習用テキストデータベース152、B自然言語学習用テキストデータベース153で構成されている。
【0030】
言語モデルオフライン処理部15では、A自然言語学習用テキストデータベース152、B自然言語学習用テキストデータベース153にある言語コーパスを用いて、言語モデル生成部151によりNグラムで統計的に学習を行い、A自然言語用言語モデル154、B自然言語用言語モデル155を各々オフラインで作成する。
【0031】
言語モデルオフライン処理部15を用いることにより、複数の自然言語を含む映像コンテンツの音声をインデクシングする際に、その複数言語に対応することが可能な統計的言語モデルの生成を行うことができ、入力された自然言語を、各発話毎に自然言語が入れ代わることに対応して自動的に識別することができるようになる。
【0032】
図6は本発明の第3の実施例の全体的構成図である。図6において、10はコンテンツ、11はコンテンツ入力部、12は音響信号識別部、13は言語自動識別装置、17は大語彙連続音声認識処理部、18は言語処理部、19は情報統合部、20はメタデータ出力部、21はメタデータである。言語自動識別装置12は、音声分析部131、A自然言語用音響モデル144とA自然言語用言語モデル154とのA自然言語用発音辞書132、B自然言語用音響モデル145とB自然言語用言語モデル155とのB自然言語用発音辞書135、GMM(Gaussian Mixture Model)尤度計算部139で構成されている。
【0033】
本言語自動識別装置13では、図1の言語自動識別装置13ような複数の自然言語探索部133、136及び複数の自然言語尤度計算部134、137による並列処理に代わり、GMM尤度計算部139において、A自然言語用発音辞書132とB自然言語用発音辞書135を用いて、混合ガウス分布の隠れマルコフモデルにより一括で尤度計算を行い、最高尤度がいずれの辞書で得られたかにより、言語を識別する。
【0034】
なお、混合ガウス分布の隠れマルコフモデルによる話者を識別する方法は知られており(例えば、Douglasほか“Robust Text−Independent Speaker
Identification Using Gaussian Mixture Speaker Models”,IEEE TRANSACTIONS ON SPEECH AND AUDIO PROCESSING,Vol.3,No1,JANUARY 1995)、ここでは、言語の識別に利用する。
【0035】
図7は、この第3の実施例の処理フローチャートである。図7において、ステップ304がGMM尤度計算部139での処理であり、これ以外は図2に示した処理フローチャートと同様であるので、詳しい説明は省略する。
【0036】
上記第3の実施例によれば、複数の自然言語を含む映像コンテンツの音声をインデクシングする際に、各自然言語に対応する音響モデルと言語モデルの発音辞書を用意し、一括処理でGMM尤度計算を行うことにより、高速で言語を識別することが可能になる。
【0037】
図8は、本発明の第4の実施例の主要部の構成図である。本実施例は、GMM尤度計算部139と大語彙連続音声認識処理部17との間に発話区間判定部16を追加したもので、それ以外の構成は図7と同様である。また、発話区間判定部16の機能は先の第2の実施例の場合と同様である。
【0038】
なお、図6や図8においても、図4の音響モデルオフライン処理部14や図5の言語モデルオフライン処理部15を追加構成することが出来ることは云うまでもない。
【0039】
なお、図1や図6、その他で示した装置構成における各部の一部もしくは全部の処理機能をコンピュータのプログラムで構成し、そのプログラムをコンピュータを用いて実行して本発明を実現することができること、あるいは、図2や図7などで示した処理手順をコンピュータのプログラムで構成し、そのプログラムをコンピュータに実行させることができることは言うまでもない。また、コンピュータでその処理機能を実現するためのプログラム、あるいは、コンピュータにその処理手順を実行させるためのプログラムを、そのコンピュータが読み取り可能な記録媒体、例えば、FD、MO、ROM、メモリカード、CD、DVD、リムーバブルディスクなどに記録して、保存したり、提供したりすることができるとともに、インターネット等のネットワークを通してそのプログラムを配布したりすることが可能である。
【0040】
【発明の効果】
以上の説明から明らかなように、本発明によれば、以下のような効果が得られる。
(1)複数の自然言語を含む映像コンテンツの音声をインデクシングする際に、各自然言語に対応する音響モデル・言語モデルの発音辞書を用意し、探索・尤度計算の並列処理を行い、尤度比較判定することにより、入力された自然言語に対して、従来人手に頼っていた言語識別を、自動的に識別することができるようになる。
【0041】
(2)複数の自然言語を含む映像コンテンツの音声をインデクシングする際に、各自然言語に対応する音響モデル・言語モデルの発音辞書を用意し、探索・尤度計算の並列処理を行い、尤度比較判定し、更に発話区間判定することにより、入力された自然言語に対して、従来人手に頼っていた言語識別を、各発話毎に自然言語が入れ代わることに対応して自動的に識別することができるようになる。
【0042】
(3)複数の自然言語を含む映像コンテンツの音声をインデクシングする際に、複数言語に対応することが可能な音響モデルの生成を行うことができ、入力された自然言語を、各発話毎に自然言語が入れ代わることに対応して自動的に識別することができるようになる。
【0043】
(4)複数の自然言語を含む映像コンテンツの音声をインデクシングする際に、複数言語に対応することが可能な統計的言語モデルの生成を行うことができ、入力された自然言語を、各発話毎に自然言語が入れ代わることに対応して自動的に識別することができるようになる。
【0044】
(5)複数の自然言語を含む映像コンテンツの音声をインデクシングする際に、各自然言語に対応する音響モデル・言語モデルの発音辞書を用意し、一括処理でGMM手法等の尤度計算を行い、尤度比較判定することにより、入力された自然言語に対して、従来人手に頼っていた言語識別を、高速で自動的に識別することができるようになる。
【0045】
(6)複数の自然言語を含む映像コンテンツの音声をインデクシングする際に、各自然言語に対応する音響モデル・言語モデル・発音辞書を用意し、一括処理でGMM手法等の尤度計算を行い、言語判定し、更に発話区間判定することにより、入力された自然言語に対して、従来人手に頼っていた言語識別を、各発話毎に自然言語が入れ代わることに対応して高速で自動的に識別することができるようになる。
【図面の簡単な説明】
【図1】本発明による第1の実施例の全体構成図である。
【図2】図1の処理フローチャートである。
【図3】本発明による第2の実施例の主要部の構成図である。
【図4】音響モデル生成の一実施例の構成図である。
【図5】言語モデル生成の一実施例の構成図である。
【図6】本発明による第3の実施例の全体構成図である。
【図7】図6の処理フローチャートである。
【図8】本発明による第4の実施例の主要部の構成図である。
【符号の説明】
11 コンテンツ入力部
12 音響信号識別部
13 言語自動識別装置の中心部
14 音響モデルオフライン処理部
15 言語モデルオフライン処理部
16 発話区間判定部
17 大語彙連続音声認識処理部
18 言語処理部
19 情報統合部
20 メタデー夕出力部
131 音声分析部
132 A自然言語用発音辞書
133 A自然言語用探索部
134 A自然言語用尤度計算部
135 B自然言語用発音辞書
136 B自然言語用探索部
137 B自然言語用尤度計算
138 尤度比較判定部
139 GMM尤度計算部
141 音響モデル生成部
142 A自然言語学習用音声データベース
143 B自然言語学習用音声データベース
144 A自然言語用音響モデル
145 B自然言語用音響モデル
151 言語モデル生成部
152 A自然言語学習用テキストデータベース
153 B自然言語学習用テキストデータベース
154 A自然言語用言語モデル
155 B自然言語用言語モデル[0001]
TECHNICAL FIELD OF THE INVENTION
The present invention relates to an automatic language identification method and apparatus for indexing audio such as video content, and is used for multilingual audio indexing, multilingual dictation, multilingual search, multilingual translation, automatic translation telephone, natural language processing, and the like. Applicable.
[0002]
[Prior art]
Recent advances in speech recognition algorithms and dramatic improvements in the performance of computers have led to the development of speech recognition engines that can be used in various applications (see, for example, Non-Patent Document 1).
On the other hand, with the globalization of the Internet and the development of broadband networks in recent years, the distribution of video content including audio has become active and the demand for multilingual search and automatic translation communication has increased. However, in the conventional multilingual communication method, the sender specifies the language, or determines the language of the receiver, and translates the transmission content. When a sender or a recipient specifies a language, a method of replacing a function card corresponding to each language, switching a switch, selecting a screen, selecting a mouse button, or the like is used.
[0003]
[Non-patent document 1]
Yoshiaki Noda et al., "Speech Recognition Technology Supporting the Multimedia Era", NTT R & D Vol. 49, no. 3, 2000, p. 142-147
[0004]
[Problems to be solved by the invention]
In the conventional language identification method, it is inconvenient to identify the language of the multilingual content because it has to rely on humans, and it takes time and money to rely on humans. There is a problem that you have to rely on the house.
SUMMARY OF THE INVENTION Accordingly, it is an object of the present invention to provide a method and apparatus for automatically identifying a language for indexing audio or the like of video content or the like in order to solve the above-mentioned problems of the conventional technology.
[0005]
[Means for Solving the Problems]
In order to achieve the above object, the language automatic identification method of the present invention uses a natural language pronunciation dictionary of a natural language acoustic model and a natural language language model in a plurality of languages when indexing speech of multilingual content. And the likelihood of the input natural language is calculated in parallel or collectively, and the input language is automatically identified in real time by a likelihood comparison or an applied dictionary that has the maximum likelihood. It is.
[0006]
Further, in the automatic language identification device of the present invention, a speech analyzing means for analyzing and analyzing a speech signal of the input content, an A natural language acoustic model used for A natural language speech recognition, and an A natural language An A natural language pronunciation dictionary with an A natural language model, which is a statistical model of A; a natural language search means for searching the A natural language pronunciation dictionary for the analyzed and analyzed speech; A natural language likelihood calculating means for calculating the likelihood of the natural language A as a result of the processing, a natural natural language acoustic model used for speech recognition of natural natural language B, and a natural natural language statistical model B natural language A B natural language pronunciation dictionary with a language model; a B natural language search means for searching the B natural language pronunciation dictionary for the analyzed and analyzed speech; and a B language likelihood of the searched result. B natural language to calculate And use likelihood calculating means compares the likelihoods and the likelihood of B natural language parallelism calculated A natural language, characterized in that it comprises a likelihood comparison determination means for determining the language.
[0007]
Also, in the automatic language identification apparatus of the present invention, a speech analysis means for analyzing and analyzing a speech signal of the input content, an acoustic model for A natural language and an A natural language acoustic model used for speech recognition of A natural language. A natural language pronunciation dictionary with a natural language model A as a statistical model, a B natural language acoustic model used for speech recognition of a B natural language, and a B natural language language as a statistical model of B natural language The likelihood is collectively calculated by a GMM method or the like for the B natural language pronunciation dictionary with the model and the analyzed and analyzed speech using the A natural language pronunciation dictionary and the B natural language pronunciation dictionary, GMM likelihood calculating means for determining a language from an applied dictionary that takes the maximum likelihood.
[0008]
Furthermore, the automatic language identification apparatus of the present invention is characterized by comprising an utterance section determining means for determining an utterance section for coping with a natural language being replaced for each utterance.
[0009]
Further, the automatic language identification device of the present invention processes generation of an acoustic model for natural language A from audio data for learning natural language A, and generation of an acoustic model for natural language B from speech data for natural language learning B. Acoustic model off-line processing means comprising acoustic model generating means capable of coping with a plurality of languages that can be used.
[0010]
Further, in the automatic language identification device of the present invention, a statistical language model for A natural language is generated from text data for A natural language learning, and a statistical language model for B natural language is generated from text data for B natural language learning. There is provided a language model off-line processing means comprising a language model generating means capable of supporting a plurality of languages capable of processing the generation.
[0011]
BEST MODE FOR CARRYING OUT THE INVENTION
Hereinafter, embodiments of the present invention will be described with reference to the drawings.
FIG. 1 is an overall configuration diagram of a first embodiment according to the present invention. In FIG. 1, 10 is a content, 11 is a content input unit, 12 is an audio signal identification unit, 13 is an automatic language identification device, 17 is a large vocabulary continuous speech recognition processing unit, 18 is a language processing unit, 19 is an information integration unit,
[0012]
The A natural language
[0013]
FIG. 2 shows a processing flowchart of the embodiment of FIG. For example,
[0014]
The
[0015]
The feature parameters of the speech extracted by the
[0016]
At the same time, the B natural language search unit (English search unit) 136 similarly uses the English
[0017]
The processing in the A natural
[0018]
The likelihood of Japanese "wa" calculated by parallel processing by the A natural
[0019]
The large vocabulary continuous speech
[0020]
FIG. 3 is a configuration diagram of a main part of the second embodiment of the present invention. In the present embodiment, an utterance
[0021]
For example, the voice is "I would like to hear Mr. Same from Seattle TNN Broadcasting Station for the local voice.",
[Mr. Seim, How do you appreciate Ichiro's achievement in Seattle? ] [Congraations Ichiro. ]
…
…
[Thankyo, Mr .; Seim. ]
"We spoke to Seattle TNN broadcaster Mr. Same."
And
[0022]
In this case, as described in the first embodiment, the language of the voice starting with the beginning of the sentence “,...” Is identified as Japanese and processed as Japanese. Here, the utterance
[0023]
The A natural language pronunciation dictionary (Japanese pronunciation dictionary) 132 of the A natural language acoustic model (Japanese acoustic model) 144 and the A natural language language model (Japanese language model) 154 is used for the A natural language. The language search unit (Japanese search unit) 133 performs pruning to leave a partial tree with a high likelihood score by a beam search method, and a natural language likelihood calculation unit (Japanese likelihood calculation unit) The likelihood is calculated at 134, and “Mr” having a high score is sent to the likelihood comparison and
[0024]
Similarly, when the utterance
[0025]
According to the second embodiment, it is possible to automatically identify a natural language input for indexing audio of video content in response to the natural language being replaced for each utterance.
[0026]
FIG. 4 shows a configuration diagram of an embodiment for generating the A natural language
[0027]
The acoustic model offline processing unit 14 classifies the speech data in the A natural language
[0028]
By using the acoustic model off-line processing unit 14, it is possible to generate an acoustic model capable of coping with a plurality of languages when indexing audio of video content including a plurality of natural languages. The natural language can be automatically identified in response to the natural language being replaced for each utterance.
[0029]
FIG. 5 shows a configuration diagram of an embodiment for generating the language model for
[0030]
In the language model offline processing unit 15, using the language corpus in the natural language
[0031]
By using the language model offline processing unit 15, when indexing audio of video content including a plurality of natural languages, it is possible to generate a statistical language model capable of coping with the plurality of languages. The natural language that has been set can be automatically identified in response to the natural language being replaced for each utterance.
[0032]
FIG. 6 is an overall configuration diagram of the third embodiment of the present invention. In FIG. 6, 10 is a content, 11 is a content input unit, 12 is an audio signal identification unit, 13 is an automatic language identification device, 17 is a large vocabulary continuous speech recognition processing unit, 18 is a language processing unit, 19 is an information integration unit,
[0033]
In the automatic language identification device 13, a GMM likelihood calculation unit is used instead of the parallel processing by the plurality of natural
[0034]
In addition, a method of identifying a speaker using a hidden Markov model of a Gaussian mixture distribution is known (for example, Douglas et al., “Robust Text-Independent Speaker”).
Identification Usage Gaussian Mixture Speaker Models ", IEEE TRANSACTIONS ON SPECH AND AUDIO PROCESSING, Vol. 3, No. 1, JANUALY 1995).
[0035]
FIG. 7 is a processing flowchart of the third embodiment. In FIG. 7,
[0036]
According to the third embodiment, when indexing audio of video content including a plurality of natural languages, a pronunciation dictionary of an acoustic model and a language model corresponding to each natural language is prepared, and the GMM likelihood is calculated in a batch process. By performing the calculation, the language can be identified at high speed.
[0037]
FIG. 8 is a configuration diagram of a main part of the fourth embodiment of the present invention. In the present embodiment, an utterance
[0038]
6 and 8, it goes without saying that the acoustic model offline processing unit 14 in FIG. 4 and the language model offline processing unit 15 in FIG. 5 can be additionally configured.
[0039]
Note that a part or all of the processing functions of each unit in the apparatus configuration shown in FIGS. 1, 6, and others can be configured by a computer program, and the program can be executed using a computer to realize the present invention. Alternatively, it goes without saying that the processing procedure shown in FIG. 2 or FIG. 7 can be configured by a computer program and the computer can execute the program. Further, a program for realizing the processing function by the computer or a program for causing the computer to execute the processing procedure is stored in a computer-readable recording medium such as an FD, an MO, a ROM, a memory card, and a CD. , A DVD, a removable disk, or the like, and can be stored or provided, and the program can be distributed through a network such as the Internet.
[0040]
【The invention's effect】
As apparent from the above description, according to the present invention, the following effects can be obtained.
(1) When indexing audio of video content including a plurality of natural languages, a pronunciation dictionary of an acoustic model / language model corresponding to each natural language is prepared, and parallel processing of search / likelihood calculation is performed. By performing the comparison and determination, it becomes possible to automatically identify the language identification that has conventionally relied on humans for the input natural language.
[0041]
(2) When indexing audio of video content including a plurality of natural languages, a pronunciation dictionary of an acoustic model and a language model corresponding to each natural language is prepared, and parallel processing of search and likelihood calculation is performed. By comparing and judging the utterance section, the language identification that has conventionally relied on humans for the input natural language is automatically identified in response to the natural language being replaced for each utterance Will be able to
[0042]
(3) When indexing audio of video content including a plurality of natural languages, an acoustic model capable of supporting a plurality of languages can be generated, and an input natural language is converted into a natural language for each utterance. It becomes possible to automatically identify in response to the exchange of languages.
[0043]
(4) When indexing audio of video content including a plurality of natural languages, a statistical language model capable of supporting a plurality of languages can be generated. Can be automatically identified in response to the natural language being replaced.
[0044]
(5) When indexing audio of video content including a plurality of natural languages, a pronunciation dictionary of an acoustic model / language model corresponding to each natural language is prepared, and likelihood calculation such as a GMM method is performed by batch processing. By performing the likelihood comparison and determination, it becomes possible to automatically and quickly identify the language identification which has conventionally relied on humans for the input natural language.
[0045]
(6) When indexing audio of video content including a plurality of natural languages, prepare an acoustic model / language model / pronunciation dictionary corresponding to each natural language, perform likelihood calculation such as a GMM method by collective processing, By language determination and utterance interval determination, language identification, which previously relied on human input, is automatically identified at high speed in response to the natural language being replaced for each utterance. Will be able to
[Brief description of the drawings]
FIG. 1 is an overall configuration diagram of a first embodiment according to the present invention.
FIG. 2 is a processing flowchart of FIG. 1;
FIG. 3 is a configuration diagram of a main part of a second embodiment according to the present invention.
FIG. 4 is a configuration diagram of an embodiment of acoustic model generation.
FIG. 5 is a configuration diagram of an embodiment of language model generation.
FIG. 6 is an overall configuration diagram of a third embodiment according to the present invention.
FIG. 7 is a processing flowchart of FIG. 6;
FIG. 8 is a configuration diagram of a main part of a fourth embodiment according to the present invention.
[Explanation of symbols]
Claims (10)
前記分析して解析された音声を、複数言語の自然言語用音響モデルと自然言語用言語モデルの自然言語用発音辞書を用いてそれぞれ並列に探索し、該探索された結果の尤度をそれぞれ計算するステップと、
前記計算されたそれぞれの尤度を比較して、前記入力された自然言語の言語を識別するステップと、
を有することを特徴とする言語自動識別方法。Analyzing and analyzing the input natural language speech signal;
The analyzed and analyzed voices are searched in parallel by using a natural language acoustic model of a plurality of languages and a natural language pronunciation dictionary of a natural language model, and the likelihood of the searched result is calculated. Steps to
Comparing the respective calculated likelihoods to identify the language of the input natural language;
Automatic language identification method characterized by having:
前記分析して解析された音声について、複数言語の自然言語用音響モデルと自然言語用言語モデルの自然言語用発音辞書を用いて一括に尤度を計算し、最大尤度をとる適用辞書から、前記入力された自然言語の言語を識別するステップと、を有することを特徴とする言語自動識別方法。Analyzing and analyzing the input natural language speech signal;
For the analyzed and analyzed speech, the likelihood is collectively calculated using the natural language acoustic model of a plurality of languages and the natural language pronunciation dictionary of the natural language language model, and from the applied dictionary that takes the maximum likelihood, A step of identifying the language of the input natural language.
入力されたコンテンツの音声の信号を分析して解析を行う音声分析部と、
A自然言語の音声認識に用いるA自然言語用音響モデルと、A自然言語の統計的モデルであるA自然言語用言語モデルとのA自然言語用発音辞書と、
前記分析して解析された音声について、A自然言語用発音辞書を探索するA自然言語用探索部と、
前記探索された結果のA自然言語の尤度を計算するA自然言語用尤度計算部と、
B自然言語の音声認識に用いるB自然言語用音響モデルとB自然言語の統計的モデルであるB自然言語用言語モデルとのB自然言語用発音辞書と、
前記分析して解析された音声信号について、B自然言語用発音辞書を探索するB自然言語用探索部と、
前記探索された結果のB自然言語の尤度を計算するB自然言語用尤度計算部と、
前記計算されたA自然言語の尤度とB自然言語の尤度を比較して言語を決定する尤度比較判定部と、
を具備することを特徴とする言語自動識別装置。An apparatus for automatically identifying an input language for indexing audio of input content,
An audio analysis unit that analyzes and analyzes the audio signal of the input content;
A natural language pronunciation dictionary of A natural language acoustic model used for speech recognition of A natural language, and A natural language language model which is a statistical model of A natural language;
A natural language search unit that searches the natural language pronunciation dictionary for the analyzed and analyzed speech;
An A natural language likelihood calculation unit for calculating the likelihood of the A natural language of the searched result;
A B natural language pronunciation dictionary of a B natural language acoustic model used for speech recognition of B natural language and a B natural language language model that is a statistical model of B natural language;
A B natural language search unit that searches the B natural language pronunciation dictionary for the analyzed and analyzed voice signal;
A B natural language likelihood calculation unit that calculates the likelihood of the B natural language of the searched result;
A likelihood comparison / determination unit that determines the language by comparing the calculated likelihood of the natural language A and the likelihood of the natural language B;
An automatic language identification device, comprising:
決定された自然言語の音声を認識するための大語彙連続音声認識処理部と、
音声認識されたテキストのトピックセグメンテーション、関連情報付与を行う言語処理部と、
音声認識結果と言語処理結果およびその他の音響信号の情報を統合する情報統合部と、
前記情報続合されたメタデータを出力するメタデータ出力部と、
を更に有することを特徴とする言語自動識別装置。5. The automatic language identification device according to claim 3, wherein an audio signal identification unit that separates a sound of the input content from other audio signals.
A large vocabulary continuous speech recognition processing unit for recognizing the determined natural language speech,
A language processing unit that performs topic segmentation of the speech-recognized text and provides related information;
An information integration unit that integrates speech recognition results, language processing results, and other audio signal information;
A metadata output unit that outputs the information-connected metadata;
Automatic language identification apparatus, further comprising:
入力されたコンテンツの音声の信号を分析して解析を行う音声分析部と、
A自然言語の音声認識に用いるA自然言語用音響モデルとA自然言語の統計的モデルであるA自然言語用言語モデルとのA自然言語用発音辞書と、
B自然言語の音声認識に用いるB自然言語用音響モデルとB自然言語の統計的モデルであるB自然言語用言語モデルとのB自然言語用発音辞書と、
前記分析して解析された音声について、A自然言語用発音辞書とB自然言語用発音辞書を用いて一括に尤度を計算し、最大尤度をとる適用辞書から言語を決定する尤度計算部と、
を具備することを特徴する言語自動識別装置。An apparatus for automatically identifying an input language for indexing audio of input content,
An audio analysis unit that analyzes and analyzes the audio signal of the input content;
An A natural language pronunciation dictionary of an A natural language acoustic model used for A natural language speech recognition and an A natural language language model that is a statistical model of the A natural language;
A B natural language pronunciation dictionary of a B natural language acoustic model used for speech recognition of B natural language and a B natural language language model that is a statistical model of B natural language;
A likelihood calculating unit that calculates the likelihood of the analyzed speech using the pronunciation dictionary for natural language A and the pronunciation dictionary for natural language B collectively, and determines the language from the applied dictionary that takes the maximum likelihood. When,
A language automatic identification device comprising:
入力されたコンテンツの音声とその他の音響信号を切り分ける音響信号識別部と、
決定された自然言語の音声を認識するための大語彙連続音声認識処理部と、
音声認識されたテキストのトピックセグメンテーション、関連情報付与を行う言語処理部と、
音声認識結果と言語処理結果およびその他の音響信号の情報を統合する情報統合部と、
前記情報統合されたメタデータを出力するメタデータ出力部と、
を更に有することを特徴とする言語自動識別装置。The language automatic identification device according to claim 6 or 7,
An audio signal identification unit that separates the audio of the input content from other audio signals,
A large vocabulary continuous speech recognition processing unit for recognizing the determined natural language speech,
A language processing unit that performs topic segmentation of the speech-recognized text and provides related information;
An information integration unit that integrates speech recognition results, language processing results, and other audio signal information;
A metadata output unit that outputs the information-integrated metadata,
Automatic language identification apparatus, further comprising:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003142736A JP2004347732A (en) | 2003-05-20 | 2003-05-20 | Automatic language identification method and system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003142736A JP2004347732A (en) | 2003-05-20 | 2003-05-20 | Automatic language identification method and system |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004347732A true JP2004347732A (en) | 2004-12-09 |
Family
ID=33530710
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003142736A Pending JP2004347732A (en) | 2003-05-20 | 2003-05-20 | Automatic language identification method and system |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2004347732A (en) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012103554A (en) * | 2010-11-11 | 2012-05-31 | Advanced Telecommunication Research Institute International | Learning device of spoken language identification device, spoken language identification device and program for the same |
JP2014164187A (en) * | 2013-02-26 | 2014-09-08 | Nippon Telegr & Teleph Corp <Ntt> | Spoken language evaluation device, parameter estimation device, method and program |
US9800657B2 (en) | 2011-08-16 | 2017-10-24 | Empire Technology Development Llc | Allocating data to plurality storage devices |
JP2018087945A (en) * | 2016-11-30 | 2018-06-07 | 株式会社日立製作所 | Language recognition system, language recognition method, and language recognition program |
CN108711420A (en) * | 2017-04-10 | 2018-10-26 | 北京猎户星空科技有限公司 | Multilingual hybrid model foundation, data capture method and device, electronic equipment |
KR20190046623A (en) * | 2017-10-26 | 2019-05-07 | 가부시키가이샤 히타치세이사쿠쇼 | Dialog system with self-learning natural language understanding |
KR20210115645A (en) | 2020-03-16 | 2021-09-27 | 주식회사 케이티 | Server, method and computer program for recognizing voice data of multiple language |
-
2003
- 2003-05-20 JP JP2003142736A patent/JP2004347732A/en active Pending
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012103554A (en) * | 2010-11-11 | 2012-05-31 | Advanced Telecommunication Research Institute International | Learning device of spoken language identification device, spoken language identification device and program for the same |
US9800657B2 (en) | 2011-08-16 | 2017-10-24 | Empire Technology Development Llc | Allocating data to plurality storage devices |
JP2014164187A (en) * | 2013-02-26 | 2014-09-08 | Nippon Telegr & Teleph Corp <Ntt> | Spoken language evaluation device, parameter estimation device, method and program |
JP2018087945A (en) * | 2016-11-30 | 2018-06-07 | 株式会社日立製作所 | Language recognition system, language recognition method, and language recognition program |
CN108711420A (en) * | 2017-04-10 | 2018-10-26 | 北京猎户星空科技有限公司 | Multilingual hybrid model foundation, data capture method and device, electronic equipment |
KR20190046623A (en) * | 2017-10-26 | 2019-05-07 | 가부시키가이샤 히타치세이사쿠쇼 | Dialog system with self-learning natural language understanding |
KR102117574B1 (en) | 2017-10-26 | 2020-06-01 | 가부시키가이샤 히타치세이사쿠쇼 | Dialog system with self-learning natural language understanding |
KR20210115645A (en) | 2020-03-16 | 2021-09-27 | 주식회사 케이티 | Server, method and computer program for recognizing voice data of multiple language |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10789290B2 (en) | Audio data processing method and apparatus, and computer storage medium | |
US10140973B1 (en) | Text-to-speech processing using previously speech processed data | |
US6067520A (en) | System and method of recognizing continuous mandarin speech utilizing chinese hidden markou models | |
Athanaselis et al. | ASR for emotional speech: clarifying the issues and enhancing performance | |
Abushariah et al. | Phonetically rich and balanced text and speech corpora for Arabic language | |
Cooper | Text-to-speech synthesis using found data for low-resource languages | |
Lileikytė et al. | Conversational telephone speech recognition for Lithuanian | |
Żelasko et al. | AGH corpus of Polish speech | |
Abushariah et al. | Modern standard Arabic speech corpus for implementing and evaluating automatic continuous speech recognition systems | |
Bachate et al. | Automatic speech recognition systems for regional languages in India | |
Chittaragi et al. | Acoustic-phonetic feature based Kannada dialect identification from vowel sounds | |
Ali | Multi-dialect Arabic speech recognition | |
JP2000172294A (en) | Method of speech recognition, device thereof, and program recording medium thereof | |
JP2004347732A (en) | Automatic language identification method and system | |
Sasmal et al. | Isolated words recognition of Adi, a low-resource indigenous language of Arunachal Pradesh | |
Furui et al. | Transcription and distillation of spontaneous speech | |
Hansen et al. | Audio stream phrase recognition for a national gallery of the spoken word:" one small step". | |
Furui | Spontaneous speech recognition and summarization | |
Chu et al. | Recent advances in the IBM GALE mandarin transcription system | |
Kruspe et al. | A GMM approach to singing language identification | |
Kruspe et al. | Phonotactic Language Identification for Singing. | |
Mohammad et al. | Phonetically rich and balanced text and speech corpora for Arabic language | |
Furui | Steps toward natural human-machine communication in the 21st century | |
Adell Mercado et al. | Buceador, a multi-language search engine for digital libraries | |
Žgank et al. | The SI TEDx-UM speech database: A new Slovenian spoken language resource |