JP5119055B2

JP5119055B2 - 多言語対応音声認識装置、システム、音声の切り替え方法およびプログラム

Info

Publication number: JP5119055B2
Application number: JP2008152741A
Authority: JP
Inventors: 雄介川村; 偉孫; 竜一菊池
Original assignee: Nippon Systemware Co Ltd
Current assignee: Nippon Systemware Co Ltd
Priority date: 2008-06-11
Filing date: 2008-06-11
Publication date: 2013-01-16
Anticipated expiration: 2028-06-11
Also published as: JP2009300573A

Description

本発明は、音声認識装置および音声認識システムに関する。より詳しく述べると、多言語対応の音声認識装置および音声認識装置に関する。
本発明は、さらに多言語対応の音声認識システムにおける言語の切り替え方法および言語切り替えプログラムに関する。

音声認識とは、ヒトの話す音声言語をコンピュータによって解析し、話している内容を文字データとして取り出す処理をいい、そしてこのような音声認識は、キーボードからの入力に代わる文字入力方法として注目を集めている。例えば、音声認識技術の応用例として、以下の表１のような用途がある。

非特許文献１には、このような音声認識を具現化するための、従来の音声認識システムの構成例が示されている。図１０は、従来の音声認識装置の例を示す図面である。図１０に示す通り、従来の音声認識装置（または音声認識システム）は、入力された音声から音声認識に必要な特徴量を取り出すための音声分析部１０１と、前記音声分析部で取り出された特徴量を認識するための音声認識部１０２とから主として構成されており、音声認識部１０２により認識した結果を、テキストデータ等のコンピュータ可読データとして出力している。

音声分析部１０１は、マイク等の入力装置により入力されデジタル化された音声データからマイク等により拾った雑音らを除外して、例えば、図１１に記載のような特徴量として抽出している。図１１は、音声認識装置における特徴量について説明する図面である。

また、図１０に示す通り、音声認識部１０２は、一般に音響モデル１０２Ａと言語モデル１０２Ｂとを備えている。
音響モデル１０２Ａは、隠れマルコフモデル等の統計的手法により特徴量から音素をモデル化し、当該特徴量がどの音素に近いか評価する機能を有している。
例えば図１２に示す通り、発音記号ごとの特徴量を定義し、そして単語と発音記号を定義する。図１２は、音響モデルの一例を示す図面である。

一方、言語モデルは、発生される言語の内容の可能性を文法や言語統計などにより規定する機能を有している。すなわち、特定の例えば２または３個の単語が各々連続する頻度の統計を行う。

そして、音声認識部１０２は、音響モデル１０２Ａからの音響モデルの列を言語モデルの拘束下で検索して音声認識を行う。

このような音声認識装置において、例えば日本語、英語、韓国語等の複数の言語に対応する音声認識装置または音声認識システムを構築しようとする場合には、図１０に示す通り、言語毎に音声認識部１０２、音響モデル部１０２Ａおよび言語モデル部１０２Ｂを用意する必要があった。

そのため、例えば従来の音声認識システムを用いて日本語、英語、韓国語の三ヶ国語でＴＶ会議をおこなうような場合には、図１３に示す通り、それぞれの言語に対応した音声認識部１０２、音響モデル１０２Ａおよび言語モデル１０２Ｂを用意し、そして入力された音声を対応する言語の音声認識部１０２に分配し、音声認識した結果を認識結果判定部により判定する必要があった。図１３は、従来技術の音声認識システムを用いたテレビ会議を実行した場合を示す図面である。
荒木雅弘著、フリーソフトでつくる音声認識システムｐ１０４−１１１、森北出版株式会社発行、２００７年１０月１０日第１版第１刷、ＩＳＢＮ９７８−４−６２７−８４７１１−８

そのため、従来の多言語対応音声認識装置や音声認識システムでは、多言語対応の音声認識のリソースが膨大になり、その結果音声認識結果の検索量や検索範囲も増大することになる。そのため、音声認識装置や、音声認識部を有するサーバなどに多大な負荷がかかってしまうこととなる。

したがって、本発明の課題は、入力された音声の言語を自動的に識別し、識別した言語認識のリソースを軽減し、認識結果の検索量を軽減した多言語対応音声認識装置および音声認識システムを提供することである。

本発明の別の課題は、複数の言語に対応する音声認識システムにおいてどの言語かを判定し、判定した言語に対応する識別用モデル部（音響モデルと言語モデル）に切り替えて音声認識可能な音声認識方法を提供することである。
本発明のさらに別の課題は、複数の言語に対応する音声認識システムにおいてどの言語かを判定し、判定した言語に対応する識別用モデル部に切り替えて音声認識可能な音声認識プログラムを提供することである
本発明のさらに別の課題は、上記音声認識プログラムを組み込んだ多言語対応音声認識システムに用いる周辺機器を提供することである。

上記の課題を解決するために、本発明の多言語対応音声認識装置は、音声を入力する音声入力分析部と、各言語に対応する音響モデルと言語モデルとから構成される複数の識別用モデル部と、音声入力分析部から音声信号を入力し、音声認識を行う音声認識部と、音声認識部から認識結果を受信して出力する認識結果出力部とを備え、入力された音声信号に応じて識別用モデル部を相当する言語に対応する識別用モデル部に切り換えて、音声認識部により対応する言語の識別用モデル部を用いて音声信号の音声認識を実行する多言語対応音声認識装置である。そして、音声入力分析部から音声信号を入力し、音声信号から認識対象の単語を認識して当該認識対象の単語に対応する言語を判断する単語認識部と、単語認識部が認識対象の単語に対応する言語を判断した場合に、識別用モデル部を判断した言語に相当する識別用モデル部に切り換えるか否かを判断し、現在の識別用モデル部と異なる言語と判断した場合に相当する言語に対応する識別用モデルに切り換えるモデル切り換え部と、を備え、単語認識部は、単語認識エンジンと、複数の言語の認識対象の単語が一つの言語の音響モデルの表記方法で表記され登録されている認識単語定義辞書と、認識対象の単語に基づいて、対応する言語を判定する言語判別辞書と、を有する。ここで、単語認識部は入力される音声信号から認識対象の単語の認識を常に行い、音声認識部は、モデル切り換え部により識別用モデルが切り換えられたとき、切り換えられた識別用モデルを用いて音声認識を実行し、モデル切り換え部により識別用モデルが切り換えられないとき、現在用いている識別用モデルにより音声認識を実行して、認識結果を認識結果出力部に出力する。

上記課題を解決するために、本発明のサーバークライアント型多言語対応音声認識装置は、音声を入力する音声入力分析部と、各言語に対応する音響モデルと言語モデルとから構成される複数の識別用モデル部と、音声入力分析部から音声信号を入力し、音声認識を行う音声認識部と、を備え、入力された音声信号に応じて識別用モデル部を相当する言語に対応する識別用モデル部に切り換えて、音声認識部により対応する言語の識別用モデル部を用いて音声信号の音声認識を実行するサーバークライアント型多言語対応音声認識装置である。そして、クライアント側には、音声入力分析部と、ネットワークを介して音声認識部と接続される音声出力手段とを有し、サーバー側には、複数の識別用モデル部と、音声認識部と、音声入力分析部から音声信号を入力し、音声信号から認識対象の単語を認識して当該認識対象の単語に対応する言語を判断する単語認識部と、単語認識部が認識対象の単語に対応する言語を判断した場合に、識別用モデル部を判断した言語に相当する識別用モデル部に切り換えるか否かを判断し、現在の識別用モデル部と異なる言語と判断した場合に相当する言語に対応する識別用モデルに切り換えるモデル切り換え部と、を備え、単語認識部は、単語認識エンジンと、複数の言語の認識対象の単語が一つの言語の音響モデルの表記方法で表記され登録されている認識単語定義辞書と、認識対象の単語に基づいて、対応する言語を判定する言語判別辞書と、を有する。ここで、単語認識部は入力される音声信号から認識対象の単語の認識を常に行い、音声認識部は、モデル切り換え部により識別用モデルが切り換えられたとき、切り換えられた識別用モデルを用いて音声認識を実行し、モデル切り換え部により識別用モデルが切り換えられないとき、現在用いている識別用モデルにより音声認識を実行して、認識結果を音声出力手段に出力する。

上記課題を解決するために、本発明のサーバークライアント型多言語対応音声認識装置は、音声を入力する音声入力分析部と、各言語に対応する音響モデルと言語モデルとから構成される複数の識別用モデル部と、音声入力分析部から音声信号を入力し、音声認識を行う音声認識部と、備え、入力された音声信号に応じて識別用モデル部を相当する言語に対応する識別用モデル部に切り換えて、音声認識部により対応する言語の識別用モデル部を用いて音声信号の音声認識を実行するサーバークライアント型多言語対応音声認識装置である。そして、サーバー側には、複数の識別用モデル部と、音声認識部とを有し、クライアント側には、音声入力分析部と、ネットワークを介して音声認識部と接続される音声出力手段と、音声入力分析部から音声信号を入力し、音声信号から認識対象の単語を認識して当該認識対象の単語に対応する言語を判断する単語認識部と、単語認識部が認識対象の単語に対応する言語を判断した場合に、識別用モデル部を判断した言語に相当する識別用モデル部に切り換えるか否かを判断し、現在の識別用モデル部と異なる言語と判断した場合に相当する言語に対応する識別用モデルに切り換えるモデル切り換え部と、を備え、単語認識部は、単語認識エンジンと、複数の言語の認識対象の単語が一つの言語の音響モデルの表記方法で表記され登録されている認識単語定義辞書と、認識対象の単語に基づいて、対応する言語を判定する言語判別辞書と、を有する。ここで、単語認識部は入力される音声信号から認識対象の単語の認識を常に行い、音声認識部は、モデル切り換え部により識別用モデルが切り換えられたとき、切り換えられた識別用モデルを用いて音声認識を実行し、モデル切り換え部により識別用モデルが切り換えられないとき、現在用いている識別用モデルにより音声認識を実行して、認識結果を音声出力手段に出力する。

上記課題を解決するために、本発明のサーバークライアント型多言語対応音声認識装置は、音声を入力する音声入力分析部と、各言語に対応する音響モデルと言語モデルとから構成される複数の識別用モデル部と、音声入力分析部から音声信号を入力し、音声認識を行う音声認識部と、備え、入力された音声信号に応じて識別用モデル部を相当する言語に対応する識別用モデル部に切り換えて、音声認識部により対応する言語の識別用モデル部を用いて音声信号の音声認識を実行するサーバークライアント型多言語対応音声認識装置である。そして、クライアント側には、音声入力分析部と、ネットワークを介して音声認識部と接続される音声出力手段と、音声入力分析部から音声信号を入力し、音声信号から認識対象の単語を認識して当該認識対象の単語に対応する言語を判断する単語認識部と、を備え、単語認識部は、単語認識エンジンと、複数の言語の認識対象の単語が一つの言語の音響モデルの表記方法で表記され登録されている認識単語定義辞書と、認識対象の単語に基づいて、対応する言語を判定する言語判別辞書と、を有する。サーバー側には、複数の識別用モデル部と、音声認識部と、単語認識部が単語に対応する言語を判断した場合に、識別用モデル部を判断した言語に相当する識別用モデル部に切り換えるか否かを判断し、現在の識別用モデル部と異なる言語と判断した場合に相当する言語に対応する識別用モデルに切り換えるモデル切り換え部を備える。ここで、単語認識部は入力される音声信号から認識対象の単語の認識を常に行い、音声認識部は、モデル切り換え部により識別用モデルが切り換えられたとき、切り換えられた識別用モデルを用いて音声認識を実行し、モデル切り換え部により識別用モデルが切り換えられないとき、現在用いている識別用モデルにより音声認識を実行して、認識結果を音声出力手段に出力する。

上記課題を解決するために、本発明のサーバークライアント型多言語対応音声認識装置に使用するための端末は、音声を入力する音声入力分析部と、各言語に対応する音響モデルと言語モデルとから構成される複数の識別用モデル部と、音声入力分析部から音声信号を入力し、音声認識を行う音声認識部と、を備え、入力された音声信号に応じて識別用モデル部を相当する言語に対応する識別用モデル部に切り換えて、音声認識部により対応する言語の識別用モデル部を用いて音声信号の音声認識を実行するサーバークライアント型多言語対応音声認識装置に使用するための端末である。そして、音声入力分析部と、ネットワークを介して音声認識部と接続される音声出力手段と、音声入力分析部から音声信号を入力し、音声信号から認識対象の単語を認識して当該認識対象の単語に対応する言語を判断する単語認識部と、単語認識部が認識対象の単語に対応する言語を判断した場合に、識別用モデル部を判断した言語に相当する識別用モデル部に切り換えるか否かを判断し、現在の識別用モデル部と異なる言語と判断した場合に相当する言語に対応する識別用モデルに切り換えるモデル切り換え部と、を備え、単語認識部は、単語認識エンジンと、複数の言語の認識対象の単語が一つの言語の音響モデルの表記方法で表記され登録されている認識単語定義辞書と、認識対象の単語に基づいて、対応する言語を判定する言語判別辞書と、を有する。ここで、単語認識部は入力される音声信号から認識対象の単語の認識を常に行い、音声認識部は、モデル切り換え部により識別用モデルが切り換えられたとき、切り換えられた識別用モデルを用いて音声認識を実行し、モデル切り換え部により識別用モデルが切り換えられないとき、現在用いている識別用モデルにより音声認識を実行して、認識結果を音声出力手段に出力する。

サーバークライアント型多言語対応音声認識装置に使用するための端末は、サーバーと無線接続するための無線通信インターフェースを有している端末であることが好ましい。

上記課題を解決するために、本発明の言語の切り換え方法は、上述のサーバークライアント型多言語対応音声認識装置における言語の切り換え方法であって、（１）音声を入力し、
（２）単語認識部は、入力された音声が認識単語定義辞書に登録された認識対象の単語であるか否かを判断し、
（３）入力された音声が認識対象の単語であると判断した場合には、当該認識対象の単語の言語を判断し、
（４）判断した言語が、現在の識別用モデル部の言語であるか否かを判断し、
（５）判断した単語が現在の識別用モデル部の言語と異なる場合には、対応する識別用モデル部に切り換え、
（６）単語認識部は、入力される音声信号から認識対象の単語の認識を常に行い、
（７）音声認識部が、モデル切り換え部により識別用モデルが切り換えられたとき、切り換えられた識別用モデルを用いて音声認識を実行し、モデル切り換え部により識別用モデルが切り換えられないとき、現在用いている識別用モデルにより音声認識を実行して、認識結果を音声出力手段に出力する。

上記課題を解決するために、本発明の言語の切り換えプログラムは、上記のサーバークライアント型多言語対応音声認識装置における言語の切り換えプログラムであって、
（１）音声を入力する工程と、
（２）単語認識部は、入力された音声が認識単語定義辞書に登録された認識対象の単語であるか否かを判断する工程と、
（３）入力された音声が認識対象の単語であると判断した場合には、当該認識対象の単語の言語を判断する工程と、
（４）判断した言語が、現在の識別用モデル部の言語であるか否かを判断する工程と、
（５）単語認識部は入力される音声信号から認識対象の単語の認識を常に行う工程と、
（６）判断した単語が現在の識別用モデル部の言語と異なる場合には、対応する識別用モデル部に切り換える工程とをコンピュータに実行させる。そして、本発明のコンピュータ可読媒体は、上記のプログラムが格納される。

本発明によると、一つの音声認識部で多言語に対応した音声認識をおこなうので、コンピュータ上のリソースの使用を軽減した多言語対応音声認識装置および音声認識装置、システム及びその方法が提供される。

また本発明によると、複数の言語に対応する音声認識システムにおいて入力された音声がどの言語かを自動的に識別判定し、判定した言語に対応する識別用モデル部に切り替えて当該言語についてのみの音声認識を可能にするので、音声認識の検索量や検索範囲を軽減した音声認識装置、システム及びその方法が提供される。
さらに本発明によると、複数の言語に対応する音声認識システムにおいてどの言語かを判定し、判定した言語に対応する識別用モデル部に切り替えて音声認識可能な音声認識プログラムが提供される。
このようなプログラムは多言語対応音声認識システムに用いる周辺機器に組み込むことができる。

以下、本発明の実施の形態を添付図面を適宜参照しながら説明する。
まずは、本発明の第一実施形態を図１から図４に基づいて説明する。
図１は、本発明の多言語対応音声認識装置の概略を示す図面であり、図２は、図１に記載の音声認識装置における単語認識部の構成を示す図面であり、図３は、単語認識部における単語認識処理の一例を示す図面であり、そして図４は、本発明の多言語対応音声認識装置で言語の切り替え動作を示すフローチャートである。

図１に示す通り、本発明の音声認識装置Ａは、音声入力装置を備えたコンピュータシステムから構成されている。当該コンピュータシステムは、演算手段、一次記憶装置、記憶装置、前記記憶装置に格納されたオペレーティングシステム（ＯＳ）、入出力装置を備えている。

そして、前記記憶装置内に格納された音声入力分析部１、音声認識部２、各言語に対応する音響モデル３Ａと言語モデル３Ｂとから構成された識別用モデル部３、単語認識部４、モデル切り替え部５、音声認識部２で認識した結果を認識する認識結果出力部６とから構成され、入力された音声の音声認識を実行して認識結果を出力する。

本実施形態における音声入力分析部１は、入力された音声を音声信号（特徴量）として音声認識部２へ送信するとともに、単語認識部３へ送信する機能を有している。

また、音声認識部２は、現在選択されている言語に対応する音響モデル３Ａと言語モデル３Ｂを参照して、従来公知の通りに音声認識を実行する。

このようにして音声認識を実行した結果を認識結果出力部６により出力する。

このような本実施態様の音声認識装置において、現在音声認識が実行されている対応する言語の識別用モデル部３に基づいて音声認識が実行されるが、本願発明は、入力された音声における言語が「今何語であるか」を把握し、入力された音声における言語が変化した場合、その変化に応じて対応する言語に切り替える点に特徴がある。そのため、本実施形態の音声認識装置は、単語認識部４により言語の変化を常にモニタしている。

すなわち、単語認識部４は、音声入力分析部１からの音声信号に基づいて、入力された言語を所定の単語データに基づいて把握している。より具体的には、単語認識部４は、図２に示す通り、単語認識エンジン４Ａと、認識単語定義辞書４Ｂと言語判別辞書４Ｃとから主として構成されており、現在用いられている言語から異なる言語への変更を絶えずモニタしている。

より詳細には、以下の処理を行う。以下、本発明における単語認識処理の一例を図３に基づいて（適宜図１および図２を参照して）説明する。
単語認識部４は、図２に示す通り、単語認識エンジン４Ａと、認識単語定義辞書４Ｂと言語判別辞書４Ｃとから主として構成されている。発声された音声は、先の音声認識部２への入力とともに、単語認識部４にも入力される（図１参照）。

入力音声は、単語認識用音声認識エンジン４Ａに入力される。音声が入力されると、単語認識用音声認識エンジン４Ａは、音声分析と、探索過程を実行し、認識結果（認識単語）を出力する。

単語認識部４では、単語認識用音声認識エンジン４Ａが、音声分析部１により出力された音声入力を認識単語定義辞書４Ｂで照合し、該当する単語がある場合は、言語判別辞書４Ｃで言語調査を行い、入力音声の言語を決定し、認識言語信号を音声認識部２へ出力する。

認識単語定義辞書４Ｂは、一つの言語（英語）の音響モデルをベースにして、一つの言語の単語およびその他の認識対象言語の単語を、ベースとした言語（英語）の表記方法で表記する。

具体的には、言語を判定する為に、認識単語定義辞書４Ｂに定義する単語を一つの言語表記（アルファベット表記）で表記する。この例で認識単語定義辞書４Ｂに定義する英語以外の言語の単語は、英語における似た音素を持つアルファベット表記の文字で定義する。

単語認識用音声認識エンジン４Ａは、この認識単語定義辞書４Ｂを用いて、入力音声の単語に最もよく合致する音響モデルの列を、言語モデルの拘束下で探し出し、最も入力音声に近いと推定される単語を判定することができる。

認識対象とする単語数は、このシステムの用途に応じて、任意に決めることができ、それぞれの単語を予め認識単語定義辞書４Ｂに登録しておく。

言語判別辞書は、単語と言語とを対応付けて定義する。単語を検索し、該当する単語が見つかれば、言語判別辞書４Ｃには、その単語に対応づけられた言語が定義、記述されているので、一つの単語に関する言語判別辞書を参照するだけで、その単語の言語が容易に判定できる。

このように、単語認識エンジン４Ａと、認識単語定義辞書４Ｂと言語判別辞書４Ｃとから主として構成された単語認識部４は、図３に示すフローチャートに従って入力された音声の言語が変化したか否かをモニタし、入力された言語が変化した場合には、言語識別信号を後段のモデル切り替え部５に送信する。モデル切り替え部５は、単語認識部４からの言語識別信号の変化に応じて識別用モデル部３にモデル切り替え信号を送信する。このようにして、モデル切り替え信号を受信すると識別用モデル部３は対応する言語の識別用モデル部に切り替える。

より具体的には、図４に示す通り、単語認識部４は、音声入力分析部１より音声信号データを受信する（工程Ｓ００１）。

単語認識部４は、入力された音声について単語認識エンジン４Ａにより認識する単語があるか否かを判断する（Ｓ００２）。

工程Ｓ００２で認識単語がない場合に（工程Ｓ００２ＮＯ）、識別用モデル部３の切り替えを行わずそのままの言語で音声認識を実行する（工程Ｓ００１に戻る）。

一方、工程Ｓ００２で認識単語が存在する場合に（工程Ｓ００２Ｙｅｓ）、工程Ｓ００３に移行して、単語認識部４は、認識単語定義辞書４Ｂにより認識単語の言語が何語であるか判断する。

そして工程Ｓ００４において、言語判別辞書４Ｃにより工程Ｓ００３で判断した言語が現在音声認識している言語と一致しているか否かを判断する。

工程Ｓ００４において、工程Ｓ００３で判断した言語が現在音声認識している言語と一致している場合（工程Ｓ００４Ｙｅｓ）、そのまま工程Ｓ００６へ移行して音声認識を続行する。一方工程Ｓ００４で工程Ｓ００３で判断した言語が現在音声認識している言語と一致していない場合（工程Ｓ００４Ｎｏ）、すなわち入力された音声の言語が異なる言語に切り替わった場合、工程Ｓ００５に移行して識別用モデル部３を当該言語に切り替えた後に、工程Ｓ００６に移行して音声認識を続行する。

このように、単語認識部４は、常に入力された音声の言語を把握して、入力された音声の言語が変わった場合にモデル切り替え部５にて当該言語用の識別用モデル部３に切り替えるので、各言語に対応する識別用モデル部３を音声認識部２と別体で設けることが可能となる。

そのため、従来技術と較べて、対応する識別用モデル部３（音響モデル／言語モデル）を揃えるだけでよく、複数の音声認識部２を持つ必要がなくなる。したがって、従来技術の多言語対応音声認識装置に比較してただ一つの音声認識部２で実現できるため、コンピュータ上のリソースをコンパクトに設計することが可能となる。

さらに、単語認識部４が、常に入力された音声の言語を把握して、入力された音声の言語が変わった場合にモデル切り替え部５に当該言語用の識別モデル部３に切り替えさせることで、入力された音声の言語識別動作を自動化できる。
従来技術の多言語対応音声認識装置は、用意されているすべての言語について音声認識のための検索を行うため、検索量や検索範囲が膨大となるが、本発明の多言語対応音声認識装置は、当該言語についての音声認識のみ行えばよいので、音声認識の検索量や検索範囲も軽減することが可能になる。そのため、音声認識装置の負荷を軽減し、処理時間を速くすることが可能となる。これらの特徴を持つ本発明により、小規模な構成で、速やかな言語認識と音声認識が可能な、多言語対応の音声認識装置が実現できる。

このように構成された本発明の多言語対応音声認識装置は、単体として、コマンド制御、口述筆記、データ入力、介護／福祉、教育、コールセンタ、音声ポータル、音声ブラウザー、索引付け、書き起こし、放送、自動翻訳、話者認識などの各種分野に適用可能である。

次に、本発明の多言語対応音声認識システムについて、図５から図７に基づいて説明する。
図５は、本発明の一実施態様に係る音声認識システムを示す図面であり、図６は、本発明の別の実施態様に係る音声認識システムを示す図面であり、そして図７は、本発明のさらに別の実施態様に係る音声認識システムを示す図面である。

本発明の音声認識システムは、端末から入力された音声をサーバで音声認識する音声認識システムであり、単語認識部４とモデル切り替え部５がどこに備わっているかで図５から図７の３通りのシステムが構成できる。どの構成を選択するかは、用途により、端末、ネットワーク、そしてサーバのそれぞれで予想される負荷状況と、いずれかの負荷を軽減すべきかを勘案するなどして決定すればよい。

図５に示す実施形態では、音声認識サーバＳとネットワークを介して接続される端末Ｔ１、Ｔ２・・・が単語認識部４とモデル切り替え部５の両方を備えている実施形態である。その他の構成は、図１から図３に示す本発明の音声認識装置と同様であるので、同一の構成要件には図１と同一の符号を付してその詳細な説明は省略する。

図５に示す実施形態では、端末Ｔ１、Ｔ２から音声を音声認識サーバＳに送信する際に、音声データとともに、使用する言語が何語であるかに関するデータ、すなわち識別用モデル部指定情報（情報の形式としては、たとえば、日本語の場合は００１、英語の場合は０１０、韓国語の場合は０１１などの値を割り当てて送信するが、このデータ形式や手段に限定されるものではない。）を送信する。端末Ｔ１、Ｔ２は、常に現在の識別用モデル部指定情報の値を記憶保存し、入力音声データを常にモニタ―して、入力された言語に変更があった場合にのみ、この識別用モデル部指定情報の値を、変更された言語に対応する値に変えて、送信するものとする。

そのため、音声認識サーバＳは、音声とともに送信された識別用モデル部指定情報を受信した時点で、受信した値に基づいた言語用の識別用モデル部３を用いて、音声認識部２で音声認識する。音声認識サーバＳは識別用モデル部指定情報の受信を待ってから、以降のモデル切り替え処理を行えばよいので、サーバの処理負荷が軽減される。

図６に示す実施形態では、音声認識サーバＳとネットワークを介して接続される端末Ｔ１、Ｔ２・・・が単語認識部４を備えている実施形態である。その他の構成は、図１から図３に示す本発明の音声認識装置と同様であるので、同一の構成要件には図１と同一の符号を付してその詳細な説明は省略する。なお、図６において、音声認識部２、識別用モデル部３、識別結果出力部６は、図５に示す実施形態と同様であるので、その詳細は省略する。

図６に示す実施形態では、端末Ｔ１、Ｔ２から音声を音声認識サーバＳに送信する際に、音声データとともに、使用する言語が何語であるかに関するデータとして、言語識別信号（識別用モデル部指定情報と同じデータ形式でよいが、異なるデータ形式を割り当てても構わない）を常に送信する。

このようにして音声データとともに使用する言語が何語であるかに関するデータを受け取った音声認識サーバＳは、現在使用している識別用モデル部３（図１、図５参照）の言語と同一の言語の音声である場合にはそのまま、そして識別用モデル部３の言語と異なる言語である場合にはモデル切り替え部５により該当する言語用の識別用モデル部３に切り替えて音声認識する構成である。端末側では、識別用モデル部指定情報を記憶保存し、その値の変化をモニターする必要がないので、図５に示した構成と比較して、端末部において、処理が軽減され、少ないリソースで実現可能となる。

図７に示す実施形態では、音声認識サーバＳとネットワークを介して接続される端末Ｔ１、Ｔ２・・・が単語認識部４もモデル切り替え部５も備えていない通常の端末であり、これらを音声認識サーバＳが備えている実施形態である。その他の構成は、図１に示す本発明の音声認識装置と同様であるので、同一の構成要件には図１と同一の符号を付してその詳細な説明は省略する。なお、図７において、音声認識部２、識別用モデル部３、識別結果出力部６は、図５に示す実施形態と同様であるので、その詳細は省略する。

このような構成の図７に示す音声認識システムは、音声が端末Ｔ１、Ｔ２からネットワークを介して入力される以外は、図１に記載の音声認識装置と同一の構成である。

そして、図７に示す音声認識システムは、ネットワークを介して音声認識サーバＳに接続できる通常の端末を用いることが可能である。

このように構成された本発明の多言語対応音声認識システムは、従来技術と較べて、対応する識別用モデル部３（音響モデル／言語モデル）を揃えるだけでよく、複数の音声認識部２を持つ必要がなくひとつで実現可能となる。したがって、従来技術の多言語対応音声認識装置に比較してリソースをコンパクトに設計することが可能となる。

リソースをコンパクトに設計することが可能となるので、本発明の多言語対応音声認識装置は、音声認識結果の検索量や検索範囲も軽減することが可能になる。そのため、音声認識装置の負荷を軽減することが可能となる。

このように構成された本発明の多言語対応音声認識システムは、多言語間で実行されるネットワークを介した音声／音声＋映像会議における音声認識システムとして有効に活用できるだけでなく、ネットワークを介した、コマンド制御、口述筆記、データ入力、介護／福祉、教育、コールセンタ、音声ポータル、音声ブラウザー、索引付け、書き起こし、放送、自動翻訳、話者認識などの各種分野に適用可能である。

本発明の音声認識システムを用いたテレビ会議を実行した場合を図１４に示す。認識対象の言語に対応する識別用モデル部３（音響モデル／言語モデル）を揃えるだけでよく、各言語に対応する音声認識部２をそれぞれ持つ必要がなくなる。したがって、図１３に示した、従来技術の多言語対応音声認識装置を用いたテレビ会議に比較してコンパクトなリソースで実現可能となる。

次に、図５または図６に示す音声認識システムに使用する端末の一例を図８および図９に基づいて説明する。
図８は、図５に示す音声認識システムに用いる端末と音声認識サーバとを接続した構成例を示す図面である。

図８に示す通り、単語認識部４およびモデル切り替え部５を有する端末Ｔは、ネットワークを介して音声認識サーバＳに接続可能な端末である。

このような端末Ｔは、既存の端末の記憶手段に単語認識部４およびモデル切り替え部５を実行するためのソフトウェアを導入することにより具現化してもよく、あるいは既存の端末にモジュールとして付け加えてもよい。

さらに、このような端末Ｔは、無線ＬＡＮ受信部、中央演算子、マイク等の音声入力部および所望によりヘッドホン等の音声出力部などを有する端末単体として構成することも可能である。

図９は、図６に示す音声認識システムに用いる端末と音声認識サーバとを接続した構成例を示す図面である。

図９に示す通り、単語認識部４を有する端末Ｔは、ネットワークを介して音声認識サーバＳに接続可能な端末である。

このような端末Ｔは、既存の端末の記憶手段に単語認識部４を実行するためのソフトウェアを導入することにより具現化してもよく、あるいは既存の端末にモジュールとして付け加えてもよい。

本発明の多言語対応音声認識装置の概略を示す図面である。図１に記載の音声認識装置における単語認識部の構成を示す図面である。本発明の単語認識部における単語認識処理の一例を示す図面である。本発明の多言語対応音声認識装置で言語の切り替え動作を示すフローチャートである。本発明の一実施態様に係る音声認識システムを示す図面である。本発明の別の実施態様に係る音声認識システムを示す図面である。本発明のさらに別の実施態様に係る音声認識システムを示す図面である。図４に示す音声認識システムに用いる端末と音声認識サーバとを接続した構成例を示す図面である図５に示す音声認識システムに用いる端末と音声認識サーバとを接続した構成例を示す図面である。従来の音声認識装置を示す図面である。音声認識装置における特徴量について説明する図面である。音響モデルの一例を示す図面である。従来技術の音声認識システムを用いたテレビ会議を実行した場合を示す図面である。本発明の音声認識システムを用いたテレビ会議を実行した場合を示す図面である。

符号の説明

Ａ多言語対応音声認識装置
Ｓ音声認識サーバ
Ｔ端末
１音声入力分析部
２音声認識部
３識別用モデル部
３Ａ音響モデル
３Ｂ言語モデル
４単語認識部
５モデル切り替え部
６認識結果出力部

Claims

音声を入力する音声入力分析部と、各言語に対応する音響モデルと言語モデルとから構成される複数の識別用モデル部と、前記音声入力分析部から音声信号を入力し、音声認識を行う音声認識部と、前記音声認識部から認識結果を受信して出力する認識結果出力部とを備え、入力された前記音声信号に応じて前記識別用モデル部を相当する言語に対応する識別用モデル部に切り換えて、前記音声認識部により対応する言語の前記識別用モデル部を用いて前記音声信号の音声認識を実行する多言語対応音声認識装置であって、
前記音声入力分析部から音声信号を入力し、前記音声信号から認識対象の単語を認識して当該認識対象の単語に対応する言語を判断する単語認識部と、
前記単語認識部が前記認識対象の単語に対応する言語を判断した場合に、前記識別用モデル部を判断した言語に相当する識別用モデル部に切り換えるか否かを判断し、現在の識別用モデル部と異なる言語と判断した場合に相当する言語に対応する識別用モデルに切り換えるモデル切り換え部と、を備え
前記単語認識部は、
単語認識エンジンと、
複数の言語の認識対象の単語が一つの言語の音響モデルの表記方法で表記され登録されている認識単語定義辞書と、
前記認識対象の単語に基づいて、対応する言語を判定する言語判別辞書と、を有し、
前記単語認識部は入力される前記音声信号から前記認識対象の単語の認識を常に行い、
前記音声認識部は、前記モデル切り換え部により識別用モデルが切り換えられたとき、切り換えられた前記識別用モデルを用いて音声認識を実行し、前記モデル切り換え部により識別用モデルが切り換えられないとき、現在用いている識別用モデルにより音声認識を実行して、認識結果を前記認識結果出力部に出力することを特徴とする多言語対応音声認識装置。
音声を入力する音声入力分析部と、各言語に対応する音響モデルと言語モデルとから構成される複数の識別用モデル部と、前記音声入力分析部から音声信号を入力し、音声認識を行う音声認識部と、を備え、入力された前記音声信号に応じて前記識別用モデル部を相当する言語に対応する識別用モデル部に切り換えて、前記音声認識部により対応する言語の前記識別用モデル部を用いて前記音声信号の音声認識を実行するサーバークライアント型多言語対応音声認識装置であって、
クライアント端末側には、
前記音声入力分析部と、ネットワークを介して前記音声認識部と接続される音声出力手段と、を備え、
サーバー側には、
前記複数の識別用モデル部と、前記音声認識部と、
前記音声入力分析部から音声信号を入力し、前記音声信号から認識対象の単語を認識して当該認識対象の単語に対応する言語を判断する単語認識部と、
前記単語認識部が前記認識対象の単語に対応する言語を判断した場合に、前記識別用モデル部を判断した言語に相当する識別用モデル部に切り換えるか否かを判断し、現在の識別用モデル部と異なる言語と判断した場合に相当する言語に対応する識別用モデルに切り換えるモデル切り換え部と、を備え、
前記単語認識部は、
単語認識エンジンと、
複数の言語の認識対象の単語が一つの言語の音響モデルの表記方法で表記され登録されている認識単語定義辞書と、
前記認識対象の単語に基づいて、対応する言語を判定する言語判別辞書と、を有し、
前記単語認識部は入力される前記音声信号から前記認識対象の単語の認識を常に行い、
前記音声認識部は、前記モデル切り換え部により識別用モデルが切り換えられたとき、切り換えられた前記識別用モデルを用いて音声認識を実行し、前記モデル切り換え部により識別用モデルが切り換えられないとき、現在用いている識別用モデルにより音声認識を実行して、認識結果を前記音声出力手段に出力することを特徴とするサーバークライアント型多言語対応音声認識装置。
音声を入力する音声入力分析部と、各言語に対応する音響モデルと言語モデルとから構成される複数の識別用モデル部と、前記音声入力分析部から音声信号を入力し、音声認識を行う音声認識部と、備え、入力された前記音声信号に応じて前記識別用モデル部を相当する言語に対応する識別用モデル部に切り換えて、前記音声認識部により対応する言語の前記識別用モデル部を用いて前記音声信号の音声認識を実行するサーバークライアント型多言語対応音声認識装置であって、
サーバー側には、
前記複数の識別用モデル部と、前記音声認識部とを有し、
クライアント端末側には、
前記音声入力分析部と、ネットワークを介して前記音声認識部と接続される音声出力手段と、
前記音声入力分析部から音声信号を入力し、前記音声信号から認識対象の単語を認識して当該認識対象の単語に対応する言語を判断する単語認識部と、
前記単語認識部が前記認識対象の単語に対応する言語を判断した場合に、前記識別用モデル部を判断した言語に相当する識別用モデル部に切り換えるか否かを判断し、現在の識別用モデル部と異なる言語と判断した場合に相当する言語に対応する識別用モデルに切り換えるモデル切り換え部と、を備え、
前記単語認識部は、
単語認識エンジンと、
複数の言語の認識対象の単語が一つの言語の音響モデルの表記方法で表記され登録されている認識単語定義辞書と、
前記認識対象の単語に基づいて、対応する言語を判定する言語判別辞書と、を有し、
前記単語認識部は入力される前記音声信号から前記認識対象の単語の認識を常に行い、
前記音声認識部は、前記モデル切り換え部により識別用モデルが切り換えられたとき、切り換えられた前記識別用モデルを用いて音声認識を実行し、前記モデル切り換え部により識別用モデルが切り換えられないとき、現在用いている識別用モデルにより音声認識を実行して、認識結果を前記音声出力手段に出力することを特徴とするサーバークライアント型多言語対応音声認識装置。
音声を入力する音声入力分析部と、各言語に対応する音響モデルと言語モデルとから構成される複数の識別用モデル部と、前記音声入力分析部から音声信号を入力し、音声認識を行う音声認識部と、備え、入力された前記音声信号に応じて識別用モデル部を相当する言語に対応する識別用モデル部に切り換えて、前記音声認識部により対応する言語の前記識別用モデル部を用いて前記音声信号の音声認識を実行するサーバークライアント型多言語対応音声認識装置であって、
クライアント端末側には、
前記音声入力分析部と、ネットワークを介して前記音声認識部と接続される音声出力手段と、
前記音声入力分析部から音声信号を入力し、前記音声信号から認識対象の単語を認識して当該認識対象の単語に対応する言語を判断する単語認識部と、を備え、
前記単語認識部は、
単語認識エンジンと、
複数の言語の認識対象の単語が一つの言語の音響モデルの表記方法で表記され登録されている認識単語定義辞書と、
前記認識対象の単語に基づいて、対応する言語を判定する言語判別辞書と、を有し、
サーバー側には、
前記複数の識別用モデル部と、前記音声認識部と、
前記単語認識部が前記単語に対応する言語を判断した場合に、前記識別用モデル部を判断した言語に相当する識別用モデル部に切り換えるか否かを判断し、現在の識別用モデル部と異なる言語と判断した場合に相当する言語に対応する識別用モデルに切り換えるモデル切り換え部を備え、
前記単語認識部は入力される前記音声信号から前記認識対象の単語の認識を常に行い、
前記音声認識部は、前記モデル切り換え部により識別用モデルが切り換えられたとき、切り換えられた前記識別用モデルを用いて音声認識を実行し、前記モデル切り換え部により識別用モデルが切り換えられないとき、現在用いている識別用モデルにより音声認識を実行して、認識結果を前記音声出力手段に出力することを特徴とするサーバークライアント型多言語対応音声認識装置。
音声を入力する音声入力分析部と、各言語に対応する音響モデルと言語モデルとから構成される複数の識別用モデル部と、前記音声入力分析部から音声信号を入力し、音声認識を行う音声認識部と、を備え、入力された前記音声信号に応じて識別用モデル部を相当する言語に対応する識別用モデル部に切り換えて、前記音声認識部により対応する言語の前記識別用モデル部を用いて前記音声信号の音声認識を実行するサーバークライアント型多言語対応音声認識装置に使用するための端末であって、
前記音声入力分析部と、ネットワークを介して前記音声認識部と接続される音声出力手段と、
前記音声入力分析部から音声信号を入力し、前記音声信号から認識対象の単語を認識して当該認識対象の単語に対応する言語を判断する単語認識部と、
前記単語認識部が前記認識対象の単語に対応する言語を判断した場合に、前記識別用モデル部を判断した言語に相当する識別用モデル部に切り換えるか否かを判断し、現在の識別用モデル部と異なる言語と判断した場合に相当する言語に対応する識別用モデルに切り換えるモデル切り換え部と、を備え、
前記単語認識部は、
単語認識エンジンと、
複数の言語の認識対象の単語が一つの言語の音響モデルの表記方法で表記され登録されている認識単語定義辞書と、
前記認識対象の単語に基づいて、対応する言語を判定する言語判別辞書と、を有し、
前記単語認識部は入力される前記音声信号から前記認識対象の単語の認識を常に行い、
前記音声認識部は、前記モデル切り換え部により識別用モデルが切り換えられたとき、切り換えられた前記識別用モデルを用いて音声認識を実行し、前記モデル切り換え部により識別用モデルが切り換えられないとき、現在用いている識別用モデルにより音声認識を実行して、認識結果を前記音声出力手段に出力することを特徴とするサーバークライアント型多言語対応音声認識装置用の端末。
前記端末は、前記サーバーと無線接続するための無線通信インターフェースを有している端末であることを特徴とする請求項５に記載のサーバークライアント型多言語対応音声認識装置用の端末。
請求項２から請求項４のいずれか一項に記載のサーバークライアント型多言語対応音声認識装置における言語の切り換え方法であって、
音声を入力し、
前記単語認識部は、入力された音声が前記認識単語定義辞書に登録された前記認識対象の単語であるか否かを判断し、
入力された音声が認識対象の単語であると判断した場合には、当該認識対象の単語の言語を判断し、
判断した言語が、現在の識別用モデル部の言語であるか否かを判断し、
判断した単語が現在の識別用モデル部の言語と異なる場合には、対応する識別用モデル部に切り換え、
前記単語認識部は、入力される前記音声信号から前記認識対象の単語の認識を常に行い、
前記音声認識部が、前記モデル切り換え部により識別用モデルが切り換えられたとき、切り換えられた前記識別用モデルを用いて音声認識を実行し、前記モデル切り換え部により識別用モデルが切り換えられないとき、現在用いている識別用モデルにより音声認識を実行して、認識結果を前記音声出力手段に出力することを特徴とする言語切り換え方法。
請求項２から請求項４のいずれか一項に記載のサーバークライアント型多言語対応音声認識装置における言語の切り換えプログラムであって、
音声を入力する工程と、
前記単語認識部は、入力された音声が前記認識単語定義辞書に登録された前記認識対象の単語であるか否かを判断する工程と、
入力された音声が認識対象の単語であると判断した場合には、当該認識対象の単語の言語を判断する工程と、
判断した言語が、現在の識別用モデル部の言語であるか否かを判断する工程と、
前記単語認識部は入力される前記音声信号から前記認識対象の単語の認識を常に行う工程と、
判断した単語が現在の識別用モデル部の言語と異なる場合には、対応する識別用モデル部に切り換える工程とをコンピュータに実行させることを特徴とする言語切り換えプログラム。
請求項８のプログラムが格納されたコンピュータ可読媒体。
請求項８に記載のプログラムが格納された多言語対応音声認識用の端末。