JP5119055B2 - 多言語対応音声認識装置、システム、音声の切り替え方法およびプログラム - Google Patents

多言語対応音声認識装置、システム、音声の切り替え方法およびプログラム Download PDF

Info

Publication number
JP5119055B2
JP5119055B2 JP2008152741A JP2008152741A JP5119055B2 JP 5119055 B2 JP5119055 B2 JP 5119055B2 JP 2008152741 A JP2008152741 A JP 2008152741A JP 2008152741 A JP2008152741 A JP 2008152741A JP 5119055 B2 JP5119055 B2 JP 5119055B2
Authority
JP
Japan
Prior art keywords
recognition
language
unit
speech
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008152741A
Other languages
English (en)
Other versions
JP2009300573A (ja
Inventor
雄介 川村
偉 孫
竜一 菊池
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Systemware Co Ltd
Original Assignee
Nippon Systemware Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Systemware Co Ltd filed Critical Nippon Systemware Co Ltd
Priority to JP2008152741A priority Critical patent/JP5119055B2/ja
Publication of JP2009300573A publication Critical patent/JP2009300573A/ja
Application granted granted Critical
Publication of JP5119055B2 publication Critical patent/JP5119055B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、音声認識装置および音声認識システムに関する。より詳しく述べると、多言語対応の音声認識装置および音声認識装置に関する。
本発明は、さらに多言語対応の音声認識システムにおける言語の切り替え方法および言語切り替えプログラムに関する。
音声認識とは、ヒトの話す音声言語をコンピュータによって解析し、話している内容を文字データとして取り出す処理をいい、そしてこのような音声認識は、キーボードからの入力に代わる文字入力方法として注目を集めている。例えば、音声認識技術の応用例として、以下の表1のような用途がある。
Figure 0005119055
非特許文献1には、このような音声認識を具現化するための、従来の音声認識システムの構成例が示されている。図10は、従来の音声認識装置の例を示す図面である。図10に示す通り、従来の音声認識装置(または音声認識システム)は、入力された音声から音声認識に必要な特徴量を取り出すための音声分析部101と、前記音声分析部で取り出された特徴量を認識するための音声認識部102とから主として構成されており、音声認識部102により認識した結果を、テキストデータ等のコンピュータ可読データとして出力している。
音声分析部101は、マイク等の入力装置により入力されデジタル化された音声データからマイク等により拾った雑音らを除外して、例えば、図11に記載のような特徴量として抽出している。図11は、音声認識装置における特徴量について説明する図面である。
また、図10に示す通り、音声認識部102は、一般に音響モデル102Aと言語モデル102Bとを備えている。
音響モデル102Aは、隠れマルコフモデル等の統計的手法により特徴量から音素をモデル化し、当該特徴量がどの音素に近いか評価する機能を有している。
例えば図12に示す通り、発音記号ごとの特徴量を定義し、そして単語と発音記号を定義する。図12は、音響モデルの一例を示す図面である。
一方、言語モデルは、発生される言語の内容の可能性を文法や言語統計などにより規定する機能を有している。すなわち、特定の例えば2または3個の単語が各々連続する頻度の統計を行う。
そして、音声認識部102は、音響モデル102Aからの音響モデルの列を言語モデルの拘束下で検索して音声認識を行う。
このような音声認識装置において、例えば日本語、英語、韓国語等の複数の言語に対応する音声認識装置または音声認識システムを構築しようとする場合には、図10に示す通り、言語毎に音声認識部102、音響モデル部102Aおよび言語モデル部102Bを用意する必要があった。
そのため、例えば従来の音声認識システムを用いて日本語、英語、韓国語の三ヶ国語でTV会議をおこなうような場合には、図13に示す通り、それぞれの言語に対応した音声認識部102、音響モデル102Aおよび言語モデル102Bを用意し、そして入力された音声を対応する言語の音声認識部102に分配し、音声認識した結果を認識結果判定部により判定する必要があった。図13は、従来技術の音声認識システムを用いたテレビ会議を実行した場合を示す図面である。
荒木雅弘著、フリーソフトでつくる音声認識システム p104−111、森北出版株式会社発行、2007年10月10日第1版第1刷、ISBN978−4−627−84711−8
そのため、従来の多言語対応音声認識装置や音声認識システムでは、多言語対応の音声認識のリソースが膨大になり、その結果音声認識結果の検索量や検索範囲も増大することになる。そのため、音声認識装置や、音声認識部を有するサーバなどに多大な負荷がかかってしまうこととなる。
したがって、本発明の課題は、入力された音声の言語を自動的に識別し、識別した言語認識のリソースを軽減し、認識結果の検索量を軽減した多言語対応音声認識装置および音声認識システムを提供することである。
本発明の別の課題は、複数の言語に対応する音声認識システムにおいてどの言語かを判定し、判定した言語に対応する識別用モデル部(音響モデルと言語モデル)に切り替えて音声認識可能な音声認識方法を提供することである。
本発明のさらに別の課題は、複数の言語に対応する音声認識システムにおいてどの言語かを判定し、判定した言語に対応する識別用モデル部に切り替えて音声認識可能な音声認識プログラムを提供することである
本発明のさらに別の課題は、上記音声認識プログラムを組み込んだ多言語対応音声認識システムに用いる周辺機器を提供することである。
上記の課題を解決するために、本発明の多言語対応音声認識装置は、音声を入力する音声入力分析部と、各言語に対応する音響モデルと言語モデルとから構成される複数の識別用モデル部と、音声入力分析部から音声信号を入力し、音声認識を行う音声認識部と、音声認識部から認識結果を受信して出力する認識結果出力部とを備え、入力された音声信号に応じて識別用モデル部を相当する言語に対応する識別用モデル部に切り換えて、音声認識部により対応する言語の識別用モデル部を用いて音声信号の音声認識を実行する多言語対応音声認識装置である。そして、音声入力分析部から音声信号を入力し、音声信号から認識対象の単語を認識して当該認識対象の単語に対応する言語を判断する単語認識部と、単語認識部が認識対象の単語に対応する言語を判断した場合に、識別用モデル部を判断した言語に相当する識別用モデル部に切り換えるか否かを判断し、現在の識別用モデル部と異なる言語と判断した場合に相当する言語に対応する識別用モデルに切り換えるモデル切り換え部と、を備え、単語認識部は、単語認識エンジンと、複数の言語の認識対象の単語が一つの言語の音響モデルの表記方法で表記され登録されている認識単語定義辞書と、認識対象の単語に基づいて、対応する言語を判定する言語判別辞書と、を有する。ここで、単語認識部は入力される音声信号から認識対象の単語の認識を常に行い、音声認識部は、モデル切り換え部により識別用モデルが切り換えられたとき、切り換えられた識別用モデルを用いて音声認識を実行し、モデル切り換え部により識別用モデルが切り換えられないとき、現在用いている識別用モデルにより音声認識を実行して、認識結果を認識結果出力部に出力する。
上記課題を解決するために、本発明のサーバークライアント型多言語対応音声認識装置は、音声を入力する音声入力分析部と、各言語に対応する音響モデルと言語モデルとから構成される複数の識別用モデル部と、音声入力分析部から音声信号を入力し、音声認識を行う音声認識部と、を備え、入力された音声信号に応じて識別用モデル部を相当する言語に対応する識別用モデル部に切り換えて、音声認識部により対応する言語の識別用モデル部を用いて音声信号の音声認識を実行するサーバークライアント型多言語対応音声認識装置である。そして、クライアント側には、音声入力分析部と、ネットワークを介して音声認識部と接続される音声出力手段とを有し、サーバー側には、複数の識別用モデル部と、音声認識部と、音声入力分析部から音声信号を入力し、音声信号から認識対象の単語を認識して当該認識対象の単語に対応する言語を判断する単語認識部と、単語認識部が認識対象の単語に対応する言語を判断した場合に、識別用モデル部を判断した言語に相当する識別用モデル部に切り換えるか否かを判断し、現在の識別用モデル部と異なる言語と判断した場合に相当する言語に対応する識別用モデルに切り換えるモデル切り換え部と、を備え、単語認識部は、単語認識エンジンと、複数の言語の認識対象の単語が一つの言語の音響モデルの表記方法で表記され登録されている認識単語定義辞書と、認識対象の単語に基づいて、対応する言語を判定する言語判別辞書と、を有する。ここで、単語認識部は入力される音声信号から認識対象の単語の認識を常に行い、音声認識部は、モデル切り換え部により識別用モデルが切り換えられたとき、切り換えられた識別用モデルを用いて音声認識を実行し、モデル切り換え部により識別用モデルが切り換えられないとき、現在用いている識別用モデルにより音声認識を実行して、認識結果を音声出力手段に出力する。
上記課題を解決するために、本発明のサーバークライアント型多言語対応音声認識装置は、音声を入力する音声入力分析部と、各言語に対応する音響モデルと言語モデルとから構成される複数の識別用モデル部と、音声入力分析部から音声信号を入力し、音声認識を行う音声認識部と、備え、入力された音声信号に応じて識別用モデル部を相当する言語に対応する識別用モデル部に切り換えて、音声認識部により対応する言語の識別用モデル部を用いて音声信号の音声認識を実行するサーバークライアント型多言語対応音声認識装置である。そして、サーバー側には、複数の識別用モデル部と、音声認識部とを有し、クライアント側には、音声入力分析部と、ネットワークを介して音声認識部と接続される音声出力手段と、音声入力分析部から音声信号を入力し、音声信号から認識対象の単語を認識して当該認識対象の単語に対応する言語を判断する単語認識部と、単語認識部が認識対象の単語に対応する言語を判断した場合に、識別用モデル部を判断した言語に相当する識別用モデル部に切り換えるか否かを判断し、現在の識別用モデル部と異なる言語と判断した場合に相当する言語に対応する識別用モデルに切り換えるモデル切り換え部と、を備え、単語認識部は、単語認識エンジンと、複数の言語の認識対象の単語が一つの言語の音響モデルの表記方法で表記され登録されている認識単語定義辞書と、認識対象の単語に基づいて、対応する言語を判定する言語判別辞書と、を有する。ここで、単語認識部は入力される音声信号から認識対象の単語の認識を常に行い、音声認識部は、モデル切り換え部により識別用モデルが切り換えられたとき、切り換えられた識別用モデルを用いて音声認識を実行し、モデル切り換え部により識別用モデルが切り換えられないとき、現在用いている識別用モデルにより音声認識を実行して、認識結果を音声出力手段に出力する。
上記課題を解決するために、本発明のサーバークライアント型多言語対応音声認識装置は、音声を入力する音声入力分析部と、各言語に対応する音響モデルと言語モデルとから構成される複数の識別用モデル部と、音声入力分析部から音声信号を入力し、音声認識を行う音声認識部と、備え、入力された音声信号に応じて識別用モデル部を相当する言語に対応する識別用モデル部に切り換えて、音声認識部により対応する言語の識別用モデル部を用いて音声信号の音声認識を実行するサーバークライアント型多言語対応音声認識装置である。そして、クライアント側には、音声入力分析部と、ネットワークを介して音声認識部と接続される音声出力手段と、音声入力分析部から音声信号を入力し、音声信号から認識対象の単語を認識して当該認識対象の単語に対応する言語を判断する単語認識部と、を備え、単語認識部は、単語認識エンジンと、複数の言語の認識対象の単語が一つの言語の音響モデルの表記方法で表記され登録されている認識単語定義辞書と、認識対象の単語に基づいて、対応する言語を判定する言語判別辞書と、を有する。サーバー側には、複数の識別用モデル部と、音声認識部と、単語認識部が単語に対応する言語を判断した場合に、識別用モデル部を判断した言語に相当する識別用モデル部に切り換えるか否かを判断し、現在の識別用モデル部と異なる言語と判断した場合に相当する言語に対応する識別用モデルに切り換えるモデル切り換え部を備える。ここで、単語認識部は入力される音声信号から認識対象の単語の認識を常に行い、音声認識部は、モデル切り換え部により識別用モデルが切り換えられたとき、切り換えられた識別用モデルを用いて音声認識を実行し、モデル切り換え部により識別用モデルが切り換えられないとき、現在用いている識別用モデルにより音声認識を実行して、認識結果を音声出力手段に出力する。
上記課題を解決するために、本発明のサーバークライアント型多言語対応音声認識装置に使用するための端末は、音声を入力する音声入力分析部と、各言語に対応する音響モデルと言語モデルとから構成される複数の識別用モデル部と、音声入力分析部から音声信号を入力し、音声認識を行う音声認識部と、を備え、入力された音声信号に応じて識別用モデル部を相当する言語に対応する識別用モデル部に切り換えて、音声認識部により対応する言語の識別用モデル部を用いて音声信号の音声認識を実行するサーバークライアント型多言語対応音声認識装置に使用するための端末である。そして、音声入力分析部と、ネットワークを介して音声認識部と接続される音声出力手段と、音声入力分析部から音声信号を入力し、音声信号から認識対象の単語を認識して当該認識対象の単語に対応する言語を判断する単語認識部と、単語認識部が認識対象の単語に対応する言語を判断した場合に、識別用モデル部を判断した言語に相当する識別用モデル部に切り換えるか否かを判断し、現在の識別用モデル部と異なる言語と判断した場合に相当する言語に対応する識別用モデルに切り換えるモデル切り換え部と、を備え、単語認識部は、単語認識エンジンと、複数の言語の認識対象の単語が一つの言語の音響モデルの表記方法で表記され登録されている認識単語定義辞書と、認識対象の単語に基づいて、対応する言語を判定する言語判別辞書と、を有する。ここで、単語認識部は入力される音声信号から認識対象の単語の認識を常に行い、音声認識部は、モデル切り換え部により識別用モデルが切り換えられたとき、切り換えられた識別用モデルを用いて音声認識を実行し、モデル切り換え部により識別用モデルが切り換えられないとき、現在用いている識別用モデルにより音声認識を実行して、認識結果を音声出力手段に出力する。
サーバークライアント型多言語対応音声認識装置に使用するための端末は、サーバーと無線接続するための無線通信インターフェースを有している端末であることが好ましい。
上記課題を解決するために、本発明の言語の切り換え方法は、上述のサーバークライアント型多言語対応音声認識装置における言語の切り換え方法であって、(1)音声を入力し、
(2)単語認識部は、入力された音声が認識単語定義辞書に登録された認識対象の単語であるか否かを判断し、
(3)入力された音声が認識対象の単語であると判断した場合には、当該認識対象の単語の言語を判断し、
(4)判断した言語が、現在の識別用モデル部の言語であるか否かを判断し、
(5)判断した単語が現在の識別用モデル部の言語と異なる場合には、対応する識別用モデル部に切り換え、
(6)単語認識部は、入力される音声信号から認識対象の単語の認識を常に行い、
(7)音声認識部が、モデル切り換え部により識別用モデルが切り換えられたとき、切り換えられた識別用モデルを用いて音声認識を実行し、モデル切り換え部により識別用モデルが切り換えられないとき、現在用いている識別用モデルにより音声認識を実行して、認識結果を音声出力手段に出力する。
上記課題を解決するために、本発明の言語の切り換えプログラムは、上記のサーバークライアント型多言語対応音声認識装置における言語の切り換えプログラムであって、
(1)音声を入力する工程と、
(2)単語認識部は、入力された音声が認識単語定義辞書に登録された認識対象の単語であるか否かを判断する工程と、
(3)入力された音声が認識対象の単語であると判断した場合には、当該認識対象の単語の言語を判断する工程と、
(4)判断した言語が、現在の識別用モデル部の言語であるか否かを判断する工程と、
(5)単語認識部は入力される音声信号から認識対象の単語の認識を常に行う工程と、
(6)判断した単語が現在の識別用モデル部の言語と異なる場合には、対応する識別用モデル部に切り換える工程とをコンピュータに実行させる。そして、本発明のコンピュータ可読媒体は、上記のプログラムが格納される。
本発明によると、一つの音声認識部で多言語に対応した音声認識をおこなうので、コンピュータ上のリソースの使用を軽減した多言語対応音声認識装置および音声認識装置、システム及びその方法が提供される。
また本発明によると、複数の言語に対応する音声認識システムにおいて入力された音声がどの言語かを自動的に識別判定し、判定した言語に対応する識別用モデル部に切り替えて当該言語についてのみの音声認識を可能にするので、音声認識の検索量や検索範囲を軽減した音声認識装置、システム及びその方法が提供される。
さらに本発明によると、複数の言語に対応する音声認識システムにおいてどの言語かを判定し、判定した言語に対応する識別用モデル部に切り替えて音声認識可能な音声認識プログラムが提供される。
このようなプログラムは多言語対応音声認識システムに用いる周辺機器に組み込むことができる。
以下、本発明の実施の形態を添付図面を適宜参照しながら説明する。
まずは、本発明の第一実施形態を図1から図4に基づいて説明する。
図1は、本発明の多言語対応音声認識装置の概略を示す図面であり、図2は、図1に記載の音声認識装置における単語認識部の構成を示す図面であり、図3は、単語認識部における単語認識処理の一例を示す図面であり、そして図4は、本発明の多言語対応音声認識装置で言語の切り替え動作を示すフローチャートである。
図1に示す通り、本発明の音声認識装置Aは、音声入力装置を備えたコンピュータシステムから構成されている。当該コンピュータシステムは、演算手段、一次記憶装置、記憶装置、前記記憶装置に格納されたオペレーティングシステム(OS)、入出力装置を備えている。
そして、前記記憶装置内に格納された音声入力分析部1、音声認識部2、各言語に対応する音響モデル3Aと言語モデル3Bとから構成された識別用モデル部3、単語認識部4、モデル切り替え部5、音声認識部2で認識した結果を認識する認識結果出力部6とから構成され、入力された音声の音声認識を実行して認識結果を出力する。
本実施形態における音声入力分析部1は、入力された音声を音声信号(特徴量)として音声認識部2へ送信するとともに、単語認識部3へ送信する機能を有している。
また、音声認識部2は、現在選択されている言語に対応する音響モデル3Aと言語モデル3Bを参照して、従来公知の通りに音声認識を実行する。
このようにして音声認識を実行した結果を認識結果出力部6により出力する。
このような本実施態様の音声認識装置において、現在音声認識が実行されている対応する言語の識別用モデル部3に基づいて音声認識が実行されるが、本願発明は、入力された音声における言語が「今何語であるか」を把握し、入力された音声における言語が変化した場合、その変化に応じて対応する言語に切り替える点に特徴がある。そのため、本実施形態の音声認識装置は、単語認識部4により言語の変化を常にモニタしている。
すなわち、単語認識部4は、音声入力分析部1からの音声信号に基づいて、入力された言語を所定の単語データに基づいて把握している。より具体的には、単語認識部4は、図2に示す通り、単語認識エンジン4Aと、認識単語定義辞書4Bと言語判別辞書4Cとから主として構成されており、現在用いられている言語から異なる言語への変更を絶えずモニタしている。
より詳細には、以下の処理を行う。以下、本発明における単語認識処理の一例を図3に基づいて(適宜図1および図2を参照して)説明する。
単語認識部4は、図2に示す通り、単語認識エンジン4Aと、認識単語定義辞書4Bと言語判別辞書4Cとから主として構成されている。発声された音声は、先の音声認識部2への入力とともに、単語認識部4にも入力される(図1参照)。
入力音声は、単語認識用音声認識エンジン4Aに入力される。音声が入力されると、単語認識用音声認識エンジン4Aは、音声分析と、探索過程を実行し、認識結果(認識単語)を出力する。
単語認識部4では、単語認識用音声認識エンジン4Aが、音声分析部1により出力された音声入力を認識単語定義辞書4Bで照合し、該当する単語がある場合は、言語判別辞書4Cで言語調査を行い、入力音声の言語を決定し、認識言語信号を音声認識部2へ出力する。
認識単語定義辞書4Bは、一つの言語(英語)の音響モデルをベースにして、一つの言語の単語およびその他の認識対象言語の単語を、ベースとした言語(英語)の表記方法で表記する。
具体的には、言語を判定する為に、認識単語定義辞書4Bに定義する単語を一つの言語表記(アルファベット表記)で表記する。 この例で認識単語定義辞書4Bに定義する英語以外の言語の単語は、英語における似た音素を持つアルファベット表記の文字で定義する。
単語認識用音声認識エンジン4Aは、この認識単語定義辞書4Bを用いて、入力音声の単語に最もよく合致する音響モデルの列を、言語モデルの拘束下で探し出し、最も入力音声に近いと推定される単語を判定することができる。
認識対象とする単語数は、このシステムの用途に応じて、任意に決めることができ、それぞれの単語を予め認識単語定義辞書4Bに登録しておく。
言語判別辞書は、単語と言語とを対応付けて定義する。単語を検索し、該当する単語が見つかれば、言語判別辞書4Cには、その単語に対応づけられた言語が定義、記述されているので、一つの単語に関する言語判別辞書を参照するだけで、その単語の言語が容易に判定できる。
このように、単語認識エンジン4Aと、認識単語定義辞書4Bと言語判別辞書4Cとから主として構成された単語認識部4は、図3に示すフローチャートに従って入力された音声の言語が変化したか否かをモニタし、入力された言語が変化した場合には、言語識別信号を後段のモデル切り替え部5に送信する。モデル切り替え部5は、単語認識部4からの言語識別信号の変化に応じて識別用モデル部3にモデル切り替え信号を送信する。このようにして、モデル切り替え信号を受信すると識別用モデル部3は対応する言語の識別用モデル部に切り替える。
より具体的には、図4に示す通り、単語認識部4は、音声入力分析部1より音声信号データを受信する(工程S001)。
単語認識部4は、入力された音声について単語認識エンジン4Aにより認識する単語があるか否かを判断する(S002)。
工程S002で認識単語がない場合に(工程S002 NO)、識別用モデル部3の切り替えを行わずそのままの言語で音声認識を実行する(工程S001に戻る)。
一方、工程S002で認識単語が存在する場合に(工程S002 Yes)、工程S003に移行して、単語認識部4は、認識単語定義辞書4Bにより認識単語の言語が何語であるか判断する。
そして工程S004において、言語判別辞書4Cにより工程S003で判断した言語が現在音声認識している言語と一致しているか否かを判断する。
工程S004において、工程S003で判断した言語が現在音声認識している言語と一致している場合(工程S004 Yes)、そのまま工程S006へ移行して音声認識を続行する。一方工程S004で工程S003で判断した言語が現在音声認識している言語と一致していない場合(工程S004 No)、すなわち入力された音声の言語が異なる言語に切り替わった場合、工程S005に移行して識別用モデル部3を当該言語に切り替えた後に、工程S006に移行して音声認識を続行する。
このように、単語認識部4は、常に入力された音声の言語を把握して、入力された音声の言語が変わった場合にモデル切り替え部5にて当該言語用の識別用モデル部3に切り替えるので、各言語に対応する識別用モデル部3を音声認識部2と別体で設けることが可能となる。
そのため、従来技術と較べて、対応する識別用モデル部3(音響モデル/言語モデル)を揃えるだけでよく、複数の音声認識部2を持つ必要がなくなる。したがって、従来技術の多言語対応音声認識装置に比較してただ一つの音声認識部2で実現できるため、コンピュータ上のリソースをコンパクトに設計することが可能となる。
さらに、単語認識部4が、常に入力された音声の言語を把握して、入力された音声の言語が変わった場合にモデル切り替え部5に当該言語用の識別モデル部3に切り替えさせることで、入力された音声の言語識別動作を自動化できる。
従来技術の多言語対応音声認識装置は、用意されているすべての言語について音声認識のための検索を行うため、検索量や検索範囲が膨大となるが、本発明の多言語対応音声認識装置は、当該言語についての音声認識のみ行えばよいので、音声認識の検索量や検索範囲も軽減することが可能になる。そのため、音声認識装置の負荷を軽減し、処理時間を速くすることが可能となる。これらの特徴を持つ本発明により、小規模な構成で、速やかな言語認識と音声認識が可能な、多言語対応の音声認識装置が実現できる。
このように構成された本発明の多言語対応音声認識装置は、単体として、コマンド制御、口述筆記、データ入力、介護/福祉、教育、コールセンタ、音声ポータル、音声ブラウザー、索引付け、書き起こし、放送、自動翻訳、話者認識などの各種分野に適用可能である。
次に、本発明の多言語対応音声認識システムについて、図5から図7に基づいて説明する。
図5は、本発明の一実施態様に係る音声認識システムを示す図面であり、図6は、本発明の別の実施態様に係る音声認識システムを示す図面であり、そして図7は、本発明のさらに別の実施態様に係る音声認識システムを示す図面である。
本発明の音声認識システムは、端末から入力された音声をサーバで音声認識する音声認識システムであり、単語認識部4とモデル切り替え部5がどこに備わっているかで図5から図7の3通りのシステムが構成できる。どの構成を選択するかは、用途により、端末、ネットワーク、そしてサーバのそれぞれで予想される負荷状況と、いずれかの負荷を軽減すべきかを勘案するなどして決定すればよい。
図5に示す実施形態では、音声認識サーバSとネットワークを介して接続される端末T1、T2・・・が単語認識部4とモデル切り替え部5の両方を備えている実施形態である。その他の構成は、図1から図3に示す本発明の音声認識装置と同様であるので、同一の構成要件には図1と同一の符号を付してその詳細な説明は省略する。
図5に示す実施形態では、端末T1、T2から音声を音声認識サーバSに送信する際に、音声データとともに、使用する言語が何語であるかに関するデータ、すなわち識別用モデル部指定情報(情報の形式としては、たとえば、日本語の場合は001、英語の場合は010、韓国語の場合は011などの値を割り当てて送信するが、このデータ形式や手段に限定されるものではない。)を送信する。端末T1、T2は、常に現在の識別用モデル部指定情報の値を記憶保存し、入力音声データを常にモニタ―して、入力された言語に変更があった場合にのみ、この識別用モデル部指定情報の値を、変更された言語に対応する値に変えて、送信するものとする。
そのため、音声認識サーバSは、音声とともに送信された識別用モデル部指定情報を受信した時点で、受信した値に基づいた言語用の識別用モデル部3を用いて、音声認識部2で音声認識する。音声認識サーバSは識別用モデル部指定情報の受信を待ってから、以降のモデル切り替え処理を行えばよいので、サーバの処理負荷が軽減される。
図6に示す実施形態では、音声認識サーバSとネットワークを介して接続される端末T1、T2・・・が単語認識部4を備えている実施形態である。その他の構成は、図1から図3に示す本発明の音声認識装置と同様であるので、同一の構成要件には図1と同一の符号を付してその詳細な説明は省略する。なお、図6において、音声認識部2、識別用モデル部3、識別結果出力部6は、図5に示す実施形態と同様であるので、その詳細は省略する。
図6に示す実施形態では、端末T1、T2から音声を音声認識サーバSに送信する際に、音声データとともに、使用する言語が何語であるかに関するデータとして、言語識別信号(識別用モデル部指定情報と同じデータ形式でよいが、異なるデータ形式を割り当てても構わない)を常に送信する。
このようにして音声データとともに使用する言語が何語であるかに関するデータを受け取った音声認識サーバSは、現在使用している識別用モデル部3(図1、図5参照)の言語と同一の言語の音声である場合にはそのまま、そして識別用モデル部3の言語と異なる言語である場合にはモデル切り替え部5により該当する言語用の識別用モデル部3に切り替えて音声認識する構成である。端末側では、識別用モデル部指定情報を記憶保存し、その値の変化をモニターする必要がないので、図5に示した構成と比較して、端末部において、処理が軽減され、少ないリソースで実現可能となる。
図7に示す実施形態では、音声認識サーバSとネットワークを介して接続される端末T1、T2・・・が単語認識部4もモデル切り替え部5も備えていない通常の端末であり、これらを音声認識サーバSが備えている実施形態である。その他の構成は、図1に示す本発明の音声認識装置と同様であるので、同一の構成要件には図1と同一の符号を付してその詳細な説明は省略する。なお、図7において、音声認識部2、識別用モデル部3、識別結果出力部6は、図5に示す実施形態と同様であるので、その詳細は省略する。
このような構成の図7に示す音声認識システムは、音声が端末T1、T2からネットワークを介して入力される以外は、図1に記載の音声認識装置と同一の構成である。
そして、図7に示す音声認識システムは、ネットワークを介して音声認識サーバSに接続できる通常の端末を用いることが可能である。
このように構成された本発明の多言語対応音声認識システムは、従来技術と較べて、対応する識別用モデル部3(音響モデル/言語モデル)を揃えるだけでよく、複数の音声認識部2を持つ必要がなくひとつで実現可能となる。したがって、従来技術の多言語対応音声認識装置に比較してリソースをコンパクトに設計することが可能となる。
リソースをコンパクトに設計することが可能となるので、本発明の多言語対応音声認識装置は、音声認識結果の検索量や検索範囲も軽減することが可能になる。そのため、音声認識装置の負荷を軽減することが可能となる。
このように構成された本発明の多言語対応音声認識システムは、多言語間で実行されるネットワークを介した音声/音声+映像会議における音声認識システムとして有効に活用できるだけでなく、ネットワークを介した、コマンド制御、口述筆記、データ入力、介護/福祉、教育、コールセンタ、音声ポータル、音声ブラウザー、索引付け、書き起こし、放送、自動翻訳、話者認識などの各種分野に適用可能である。
本発明の音声認識システムを用いたテレビ会議を実行した場合を図14に示す。認識対象の言語に対応する識別用モデル部3(音響モデル/言語モデル)を揃えるだけでよく、各言語に対応する音声認識部2をそれぞれ持つ必要がなくなる。したがって、図13に示した、従来技術の多言語対応音声認識装置を用いたテレビ会議に比較してコンパクトなリソースで実現可能となる。
次に、図5または図6に示す音声認識システムに使用する端末の一例を図8および図9に基づいて説明する。
図8は、図5に示す音声認識システムに用いる端末と音声認識サーバとを接続した構成例を示す図面である。
図8に示す通り、単語認識部4およびモデル切り替え部5を有する端末Tは、ネットワークを介して音声認識サーバSに接続可能な端末である。
このような端末Tは、既存の端末の記憶手段に単語認識部4およびモデル切り替え部5を実行するためのソフトウェアを導入することにより具現化してもよく、あるいは既存の端末にモジュールとして付け加えてもよい。
さらに、このような端末Tは、無線LAN受信部、中央演算子、マイク等の音声入力部および所望によりヘッドホン等の音声出力部などを有する端末単体として構成することも可能である。
図9は、図6に示す音声認識システムに用いる端末と音声認識サーバとを接続した構成例を示す図面である。
図9に示す通り、単語認識部4を有する端末Tは、ネットワークを介して音声認識サーバSに接続可能な端末である。
このような端末Tは、既存の端末の記憶手段に単語認識部4を実行するためのソフトウェアを導入することにより具現化してもよく、あるいは既存の端末にモジュールとして付け加えてもよい。
さらに、このような端末Tは、無線LAN受信部、中央演算子、マイク等の音声入力部および所望によりヘッドホン等の音声出力部などを有する端末単体として構成することも可能である。
本発明の多言語対応音声認識装置の概略を示す図面である。 図1に記載の音声認識装置における単語認識部の構成を示す図面である。 本発明の単語認識部における単語認識処理の一例を示す図面である。 本発明の多言語対応音声認識装置で言語の切り替え動作を示すフローチャートである。 本発明の一実施態様に係る音声認識システムを示す図面である。 本発明の別の実施態様に係る音声認識システムを示す図面である。 本発明のさらに別の実施態様に係る音声認識システムを示す図面である。 図4に示す音声認識システムに用いる端末と音声認識サーバとを接続した構成例を示す図面である 図5に示す音声認識システムに用いる端末と音声認識サーバとを接続した構成例を示す図面である。 従来の音声認識装置を示す図面である。 音声認識装置における特徴量について説明する図面である。 音響モデルの一例を示す図面である。 従来技術の音声認識システムを用いたテレビ会議を実行した場合を示す図面である。 本発明の音声認識システムを用いたテレビ会議を実行した場合を示す図面である。
符号の説明
A 多言語対応音声認識装置
S 音声認識サーバ
T 端末
1 音声入力分析部
2 音声認識部
3 識別用モデル部
3A 音響モデル
3B 言語モデル
4 単語認識部
5 モデル切り替え部
6 認識結果出力部

Claims (10)

  1. 音声を入力する音声入力分析部と、各言語に対応する音響モデルと言語モデルとから構成される複数の識別用モデル部と、前記音声入力分析部から音声信号を入力し、音声認識を行う音声認識部と、前記音声認識部から認識結果を受信して出力する認識結果出力部とを備え、入力された前記音声信号に応じて前記識別用モデル部を相当する言語に対応する識別用モデル部に切り換えて、前記音声認識部により対応する言語の前記識別用モデル部を用いて前記音声信号の音声認識を実行する多言語対応音声認識装置であって、
    前記音声入力分析部から音声信号を入力し、前記音声信号から認識対象の単語を認識して当該認識対象の単語に対応する言語を判断する単語認識部と、
    前記単語認識部が前記認識対象の単語に対応する言語を判断した場合に前記識別用モデル部を判断した言語に相当する識別用モデル部に切り換えるか否かを判断し、現在の識別用モデル部と異なる言語と判断した場合に相当する言語に対応する識別用モデルに切り換えるモデル切り換え部と、を備え
    前記単語認識部は、
    単語認識エンジンと、
    複数の言語の認識対象の単語が一つの言語の音響モデルの表記方法で表記され登録されている認識単語定義辞書と、
    前記認識対象の単語に基づいて、対応する言語を判定する言語判別辞書と、を有し、
    前記単語認識部は入力される前記音声信号から前記認識対象の単語の認識を常に行い、
    前記音声認識部は、前記モデル切り換え部により識別用モデルが切り換えられたとき、切り換えられた前記識別用モデルを用いて音声認識を実行し、前記モデル切り換え部により識別用モデルが切り換えられないとき、現在用いている識別用モデルにより音声認識を実行して、認識結果を前記認識結果出力部に出力することを特徴とする多言語対応音声認識装置。
  2. 音声を入力する音声入力分析部と、各言語に対応する音響モデルと言語モデルとから構成される複数の識別用モデル部と、前記音声入力分析部から音声信号を入力し、音声認識を行う音声認識部と、を備え、入力された前記音声信号に応じて前記識別用モデル部を相当する言語に対応する識別用モデル部に切り換えて、前記音声認識部により対応する言語の前記識別用モデル部を用いて前記音声信号の音声認識を実行するサーバークライアント型多言語対応音声認識装置であって、
    クライアント端末側には、
    前記音声入力分析部と、ネットワークを介して前記音声認識部と接続される音声出力手段と、を備え、
    サーバー側には、
    前記複数の識別用モデル部と、前記音声認識部と、
    前記音声入力分析部から音声信号を入力し、前記音声信号から認識対象の単語を認識して当該認識対象の単語に対応する言語を判断する単語認識部と、
    前記単語認識部が前記認識対象の単語に対応する言語を判断した場合に、前記識別用モデル部を判断した言語に相当する識別用モデル部に切り換えるか否かを判断し、現在の識別用モデル部と異なる言語と判断した場合に相当する言語に対応する識別用モデルに切り換えるモデル切り換え部と、を備え、
    前記単語認識部は、
    単語認識エンジンと、
    複数の言語の認識対象の単語が一つの言語の音響モデルの表記方法で表記され登録されている認識単語定義辞書と、
    前記認識対象の単語に基づいて、対応する言語を判定する言語判別辞書と、を有し、
    前記単語認識部は入力される前記音声信号から前記認識対象の単語の認識を常に行い、
    前記音声認識部は、前記モデル切り換え部により識別用モデルが切り換えられたとき、切り換えられた前記識別用モデルを用いて音声認識を実行し、前記モデル切り換え部により識別用モデルが切り換えられないとき、現在用いている識別用モデルにより音声認識を実行して、認識結果を前記音声出力手段に出力することを特徴とするサーバークライアント型多言語対応音声認識装置。
  3. 音声を入力する音声入力分析部と、各言語に対応する音響モデルと言語モデルとから構成される複数の識別用モデル部と、前記音声入力分析部から音声信号を入力し、音声認識を行う音声認識部と、備え、入力された前記音声信号に応じて前記識別用モデル部を相当する言語に対応する識別用モデル部に切り換えて、前記音声認識部により対応する言語の前記識別用モデル部を用いて前記音声信号の音声認識を実行するサーバークライアント型多言語対応音声認識装置であって、
    サーバー側には、
    前記複数の識別用モデル部と、前記音声認識部とを有し、
    クライアント端末側には、
    前記音声入力分析部と、ネットワークを介して前記音声認識部と接続される音声出力手段と、
    前記音声入力分析部から音声信号を入力し、前記音声信号から認識対象の単語を認識して当該認識対象の単語に対応する言語を判断する単語認識部と
    前記単語認識部が前記認識対象の単語に対応する言語を判断した場合に、前記識別用モデル部を判断した言語に相当する識別用モデル部に切り換えるか否かを判断し、現在の識別用モデル部と異なる言語と判断した場合に相当する言語に対応する識別用モデルに切り換えるモデル切り換え部と、を備え、
    前記単語認識部は、
    単語認識エンジンと、
    複数の言語の認識対象の単語が一つの言語の音響モデルの表記方法で表記され登録されている認識単語定義辞書と、
    前記認識対象の単語に基づいて、対応する言語を判定する言語判別辞書と、を有し、
    前記単語認識部は入力される前記音声信号から前記認識対象の単語の認識を常に行い、
    前記音声認識部は、前記モデル切り換え部により識別用モデルが切り換えられたとき、切り換えられた前記識別用モデルを用いて音声認識を実行し、前記モデル切り換え部により識別用モデルが切り換えられないとき、現在用いている識別用モデルにより音声認識を実行して、認識結果を前記音声出力手段に出力することを特徴とするサーバークライアント型多言語対応音声認識装置。
  4. 音声を入力する音声入力分析部と、各言語に対応する音響モデルと言語モデルとから構成される複数の識別用モデル部と、前記音声入力分析部から音声信号を入力し、音声認識を行う音声認識部と、備え、入力された前記音声信号に応じて識別用モデル部を相当する言語に対応する識別用モデル部に切り換えて、前記音声認識部により対応する言語の前記識別用モデル部を用いて前記音声信号の音声認識を実行するサーバークライアント型多言語対応音声認識装置であって、
    クライアント端末側には、
    前記音声入力分析部と、ネットワークを介して前記音声認識部と接続される音声出力手段と、
    前記音声入力分析部から音声信号を入力し、前記音声信号から認識対象の単語を認識して当該認識対象の単語に対応する言語を判断する単語認識部と、を備え、
    前記単語認識部は、
    単語認識エンジンと、
    複数の言語の認識対象の単語が一つの言語の音響モデルの表記方法で表記され登録されている認識単語定義辞書と、
    前記認識対象の単語に基づいて、対応する言語を判定する言語判別辞書と、を有し、
    サーバー側には、
    前記複数の識別用モデル部と、前記音声認識部と、
    前記単語認識部が前記単語に対応する言語を判断した場合に、前記識別用モデル部を判断した言語に相当する識別用モデル部に切り換えるか否かを判断し、現在の識別用モデル部と異なる言語と判断した場合に相当する言語に対応する識別用モデルに切り換えるモデル切り換え部を備え、
    前記単語認識部は入力される前記音声信号から前記認識対象の単語の認識を常に行い、
    前記音声認識部は、前記モデル切り換え部により識別用モデルが切り換えられたとき、切り換えられた前記識別用モデルを用いて音声認識を実行し、前記モデル切り換え部により識別用モデルが切り換えられないとき、現在用いている識別用モデルにより音声認識を実行して、認識結果を前記音声出力手段に出力することを特徴とするサーバークライアント型多言語対応音声認識装置。
  5. 音声を入力する音声入力分析部と、各言語に対応する音響モデルと言語モデルとから構成される複数の識別用モデル部と、前記音声入力分析部から音声信号を入力し、音声認識を行う音声認識部と、を備え、入力された前記音声信号に応じて識別用モデル部を相当する言語に対応する識別用モデル部に切り換えて、前記音声認識部により対応する言語の前記識別用モデル部を用いて前記音声信号の音声認識を実行するサーバークライアント型多言語対応音声認識装置に使用するための端末であって、
    前記音声入力分析部と、ネットワークを介して前記音声認識部と接続される音声出力手段と、
    前記音声入力分析部から音声信号を入力し、前記音声信号から認識対象の単語を認識して当該認識対象の単語に対応する言語を判断する単語認識部と、
    前記単語認識部が前記認識対象の単語に対応する言語を判断した場合に、前記識別用モデル部を判断した言語に相当する識別用モデル部に切り換えるか否かを判断し、現在の識別用モデル部と異なる言語と判断した場合に相当する言語に対応する識別用モデルに切り換えるモデル切り換え部と、を備え、
    前記単語認識部は、
    単語認識エンジンと、
    複数の言語の認識対象の単語が一つの言語の音響モデルの表記方法で表記され登録されている認識単語定義辞書と、
    前記認識対象の単語に基づいて、対応する言語を判定する言語判別辞書と、を有し、
    前記単語認識部は入力される前記音声信号から前記認識対象の単語の認識を常に行い、
    前記音声認識部は、前記モデル切り換え部により識別用モデルが切り換えられたとき、切り換えられた前記識別用モデルを用いて音声認識を実行し、前記モデル切り換え部により識別用モデルが切り換えられないとき、現在用いている識別用モデルにより音声認識を実行して、認識結果を前記音声出力手段に出力することを特徴とするサーバークライアント型多言語対応音声認識装置用の端末。
  6. 前記端末は、前記サーバーと無線接続するための無線通信インターフェースを有している端末であることを特徴とする請求項5に記載のサーバークライアント型多言語対応音声認識装置用の端末
  7. 請求項2から請求項4のいずれか一項に記載のサーバークライアント型多言語対応音声認識装置における言語の切り換え方法であって、
    音声を入力し、
    前記単語認識部は、入力された音声が前記認識単語定義辞書に登録された前記認識対象の単語であるか否かを判断し、
    入力された音声が認識対象の単語であると判断した場合には、当該認識対象の単語の言語を判断し、
    判断した言語が、現在の識別用モデル部の言語であるか否かを判断し、
    判断した単語が現在の識別用モデル部の言語と異なる場合には、対応する識別用モデル部に切り換え、
    前記単語認識部は、入力される前記音声信号から前記認識対象の単語の認識を常に行い、
    前記音声認識部が、前記モデル切り換え部により識別用モデルが切り換えられたとき、切り換えられた前記識別用モデルを用いて音声認識を実行し、前記モデル切り換え部により識別用モデルが切り換えられないとき、現在用いている識別用モデルにより音声認識を実行して、認識結果を前記音声出力手段に出力することを特徴とする言語切り換え方法。
  8. 請求項2から請求項4のいずれか一項に記載のサーバークライアント型多言語対応音声認識装置における言語の切り換えプログラムであって、
    音声を入力する工程と、
    前記単語認識部は、入力された音声が前記認識単語定義辞書に登録された前記認識対象の単語であるか否かを判断する工程と、
    入力された音声が認識対象の単語であると判断した場合には、当該認識対象の単語の言語を判断する工程と、
    判断した言語が、現在の識別用モデル部の言語であるか否かを判断する工程と、
    前記単語認識部は入力される前記音声信号から前記認識対象の単語の認識を常に行う工程と、
    判断した単語が現在の識別用モデル部の言語と異なる場合には、対応する識別用モデル部に切り換える工程とをコンピュータに実行させることを特徴とする言語切り換えプログラム。
  9. 請求項8のプログラムが格納されたコンピュータ可読媒体。
  10. 請求項8に記載のプログラムが格納された多言語対応音声認識用の端末。
JP2008152741A 2008-06-11 2008-06-11 多言語対応音声認識装置、システム、音声の切り替え方法およびプログラム Expired - Fee Related JP5119055B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008152741A JP5119055B2 (ja) 2008-06-11 2008-06-11 多言語対応音声認識装置、システム、音声の切り替え方法およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008152741A JP5119055B2 (ja) 2008-06-11 2008-06-11 多言語対応音声認識装置、システム、音声の切り替え方法およびプログラム

Publications (2)

Publication Number Publication Date
JP2009300573A JP2009300573A (ja) 2009-12-24
JP5119055B2 true JP5119055B2 (ja) 2013-01-16

Family

ID=41547556

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008152741A Expired - Fee Related JP5119055B2 (ja) 2008-06-11 2008-06-11 多言語対応音声認識装置、システム、音声の切り替え方法およびプログラム

Country Status (1)

Country Link
JP (1) JP5119055B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160100640A (ko) * 2015-02-16 2016-08-24 현대자동차주식회사 차량 및 그 제어 방법

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE112010005226T5 (de) * 2010-02-05 2012-11-08 Mitsubishi Electric Corporation Erkennungswörterbuch-Erzeugungsvorrichtung und Spracherkennungsvorrichtung
US20110246172A1 (en) * 2010-03-30 2011-10-06 Polycom, Inc. Method and System for Adding Translation in a Videoconference
JP5510069B2 (ja) * 2010-05-25 2014-06-04 富士通モバイルコミュニケーションズ株式会社 翻訳装置
WO2013025206A2 (en) 2011-08-16 2013-02-21 Empire Technology Development Llc Allocating data to plurality storage devices
JP6098072B2 (ja) * 2012-08-31 2017-03-22 日本電気株式会社 音声認識装置、音声認識方法及びプログラム
JP6080978B2 (ja) * 2013-11-20 2017-02-15 三菱電機株式会社 音声認識装置および音声認識方法
KR102545764B1 (ko) * 2016-04-01 2023-06-20 삼성전자주식회사 음성 번역을 위한 장치 및 방법
JP6920153B2 (ja) * 2017-09-27 2021-08-18 株式会社日立情報通信エンジニアリング 通話音声処理システム及び通話音声処理方法
JP7163035B2 (ja) * 2018-02-19 2022-10-31 株式会社東芝 音響出力システム、音響出力方法及びプログラム
JP6969491B2 (ja) 2018-05-11 2021-11-24 トヨタ自動車株式会社 音声対話システム、音声対話方法及びプログラム
CN110800046B (zh) * 2018-06-12 2023-06-30 深圳市合言信息科技有限公司 语音识别及翻译方法以及翻译装置
US11322136B2 (en) * 2019-01-09 2022-05-03 Samsung Electronics Co., Ltd. System and method for multi-spoken language detection
CN112837674B (zh) * 2019-11-22 2024-06-11 阿里巴巴集团控股有限公司 语音识别方法、装置及相关系统和设备
CN111128125A (zh) * 2019-12-30 2020-05-08 深圳市优必选科技股份有限公司 语音服务配置系统及其语音服务配置方法和装置
JP7160077B2 (ja) * 2020-10-26 2022-10-25 日本電気株式会社 音声処理装置、音声処理方法、システム、およびプログラム
CN112652311B (zh) * 2020-12-01 2021-09-03 北京百度网讯科技有限公司 中英文混合语音识别方法、装置、电子设备和存储介质
JP7533525B2 (ja) * 2021-09-22 2024-08-14 カシオ計算機株式会社 電子機器、学習支援システム、学習処理方法及びプログラム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10190842A (ja) * 1996-12-27 1998-07-21 Hitachi Ltd 音声対話システム
JP2001282788A (ja) * 2000-03-28 2001-10-12 Kyocera Corp 電子辞書装置及び電子辞書装置の使用言語切替方法、記憶媒体
JP2003044074A (ja) * 2001-07-27 2003-02-14 Canon Inc 印刷処理装置、印刷処理方法、コンピュータ読み取り可能な記憶媒体及びコンピュータプログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160100640A (ko) * 2015-02-16 2016-08-24 현대자동차주식회사 차량 및 그 제어 방법

Also Published As

Publication number Publication date
JP2009300573A (ja) 2009-12-24

Similar Documents

Publication Publication Date Title
JP5119055B2 (ja) 多言語対応音声認識装置、システム、音声の切り替え方法およびプログラム
JP4902617B2 (ja) 音声認識システム、音声認識方法、音声認識クライアントおよびプログラム
CN105931644B (zh) 一种语音识别方法及移动终端
KR20190046623A (ko) 자기-학습 자연 언어 이해를 갖는 다이얼로그 시스템
JP5706384B2 (ja) 音声認識装置、音声認識システム、音声認識方法および音声認識プログラム
KR20170033722A (ko) 사용자의 발화 처리 장치 및 방법과, 음성 대화 관리 장치
JP2002540477A (ja) クライアント−サーバ音声認識
WO2020024620A1 (zh) 语音信息的处理方法以及装置、设备和存储介质
WO2006054724A1 (ja) 音声認識装置及び方法ならびにプログラム
US8509396B2 (en) Automatic creation of complex conversational natural language call routing system for call centers
CN108470563B (zh) 一种语音交互中的语音切换方法、服务器及系统
CN110910903A (zh) 语音情绪识别方法、装置、设备及计算机可读存储介质
JP2011504624A (ja) 自動同時通訳システム
JP2006251545A (ja) 音声対話システム及びコンピュータプログラム
US7844459B2 (en) Method for creating a speech database for a target vocabulary in order to train a speech recognition system
KR20210036169A (ko) 대화 시스템, 대화 처리 방법, 번역 장치 및 번역 방법
CN108399912B (zh) 一种机器人的语音切换方法、服务器及系统
JP3927800B2 (ja) 音声認識装置及び方法、プログラム、並びに記憶媒体
KR20220121455A (ko) Stt를 활용한 화자구분 시스템
JP6580281B1 (ja) 翻訳装置、翻訳方法、および翻訳プログラム
CN116564286A (zh) 语音录入方法、装置、存储介质及电子设备
CN113077793A (zh) 一种语音识别方法、装置、设备及存储介质
CN111489742B (zh) 声学模型训练方法、语音识别方法、装置及电子设备
KR20220045741A (ko) 연속 상황을 판단하여 음성 인식 서비스를 제공하는 장치, 방법 및 컴퓨터 프로그램
KR20220121456A (ko) 대화 텍스트를 카테고리화하여 저장 가능한 화자구분 시스템

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110602

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120405

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120416

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120608

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120827

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120903

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121001

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121022

R150 Certificate of patent or registration of utility model

Ref document number: 5119055

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151026

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees