JP4346571B2

JP4346571B2 - 音声認識システム、音声認識方法、及びコンピュータプログラム

Info

Publication number: JP4346571B2
Application number: JP2005075924A
Authority: JP
Inventors: 直司松尾
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2005-03-16
Filing date: 2005-03-16
Publication date: 2009-10-21
Anticipated expiration: 2025-03-16
Also published as: US8010359B2; US20060212291A1; JP2006259164A

Description

本発明は、複数の発話者の音声に基づいて単一のアプリケーションを実行することができる音声認識システム、音声認識方法、及びコンピュータプログラムに関する。

近年、音声認識システム（ＡＳＲ：Auto Speech Recognition）を用いた様々なアプリケーションが急速に普及している。例えばカーナビゲーションシステムに音声認識システムを適用することにより、運転中の安全を確保しつつ、確実に目的地まで到達することができる等、様々な効果を奏する。

一方、利用者の音声に対して自動的に応答することから、複数の利用者による音声が同時的に入力された場合、誤認識する割合が高くなり、アプリケーションを利用者の意図に沿って実行することが困難になる。この場合、受付けた音声に基づいて音声の入力された方向、音声の特徴量等に基づいて話者を特定し、特定した話者により発せられた音声のみを音声認識することにより、受付けた音声を誤認識することなく音声認識アプリケーションを実行することができる。

例えば、特許文献１では、発話者が誰であるかを分析して特定し、特定した発話者ごとに最適な認識パラメータを準備し、発話者に応じて逐次最適化するような構成としてある音声認識装置が開示されており、複数の発話者が交互に音声を入力した場合であっても、複数の発話社の音声を混同して認識することなく、アプリケーションを実行することが可能となる。

また、特許文献２では、マイクロホンアレイで複数の話者の音声を受付け、受付けた音声を話者ごとの音声データとして分離した後、分離した音声データについて音声認識を行う車載音声認識システムが開示されている。これにより、例えば運転席、助手席等にそれぞれ話者が搭乗している場合に、マイクロホンアレイの指向特性範囲を容易に変化させながら音声データを収集し、話者ごとに音声認識を行うことができることから、誤認識の発生率を大幅に低減することが可能となる。
特開２００１−００５４８２号公報特開２００３−１１４６９９号公報

しかし、特許文献１に開示してある音声認識装置は、マイクロホンアレイにより発話者の方向を特定することにより、特定の発話者の音声に基づいてアプリケーションを実行することができるが、特定した発話者からの音声のみにより実行することができ、他の発話者の音声に基づいて実行することができない。したがって、複数の発話者により共同で１つのアプリケーションを実行することができないという問題点があった。

また、特許文献２に開示してある車載音声認識システムは、複数話者が同時に発声した場合であっても、話者ごとにアプリケーションを実行することができるが、話者ごとに独立してアプリケーションを実行するだけであり、共通のアプリケーションを複数の話者で実行することができないという問題点があった。

本発明は斯かる事情に鑑みてなされたものであり、複数の話者が重畳して音声を入力した場合であっても、話者ごとに音声認識することができ、単一のアプリケーションを共同で実行することができる音声認識システム、音声認識方法、及びコンピュータプログラムを提供することを目的とする。

上記目的を達成するために本願は、複数の話者に係る音声を受け付け、受付けた音声の認識結果に基づいて所定のアプリケーションを実行する音声認識システムにおいて、話者ごとに受付けた音声と音声認識用の音声パターンとの照合度合を示す評価値を算出し、算出した評価値が最大である文字列を認識結果として出力する音声認識手段と、音声認識した結果を、前記アプリケーションの実行に必要なデータ項目について、空きデータ項目が有るかを照合する照合手段と、照合した結果、前記アプリケーションの実行に必要なデータ項目として重複していない複数の音声認識した結果を連結する連結手段と、重複している複数の音声認識の結果のうち前記評価値が最大である音声認識の結果を選択する選択手段とを備える音声認識システムを開示する。

また、本願は、前記音声認識手段は、音声認識対象となる音声が発せられた時点及び認識結果を出力するようにしてあり、前記選択手段は、照合した結果、更に、前記アプリケーションの実行に必要な同一のデータ項目について複数回の音声が発せられたと判断した場合、音声が発せられた時点が後の音声認識結果を優先して選択するようにしてある音声認識システムを開示する。

また、本願は、更に、話者ごとに音声認識の結果を選択する優先度を示す優先順位を記憶しておき、又は発声の順番に応じて優先順位を特定し、前記選択手段は、優先順位の高い話者が発した音声の音声認識結果を優先して選択するようにしてある音声認識システムを開示する。

また、本願は、更に、受付けた音声を話者ごとに分離する音声分離手段を備え、前記音声認識手段は前記音声分離手段にて分離した話者ごとの音声を用いるようにしてある音声認識システムを開示する。

また、本願は、複数の話者に係る音声を受け付け、受付けた音声の認識結果に基づいて所定のアプリケーションを実行する音声認識方法において、話者ごとに受付けた音声と音声認識用のパターンとの照合度合を示す評価値を算出し、算出した評価値が最大である文字列を認識結果として出力し、該認識結果を、前記アプリケーションの実行に必要なデータ項目について、空きデータ項目が有るかを照合し、照合した結果、前記アプリケーションの実行に必要なデータ項目として重複していない場合は、複数の音声認識した結果を連結し、重複している場合は、複数の音声認識の結果のうち前記評価値が最大である音声認識の結果を選択する音声認識方法を開示する。

また、本願は、更に、評価値を算出して認識結果を出力すべく、受付けた音声を話者ごとに分離するようにしてある音声認識方法を開示する。

また、本願は、複数の話者に係る音声を受け付け、受付けた音声の認識結果に基づいて所定のアプリケーションを実行するコンピュータで実行することが可能なコンピュータプログラムにおいて、前記コンピュータを、話者ごとに受付けた音声と音声認識用のパターンとの照合度合を示す評価値を算出し、算出した評価値が最大である文字列を認識結果として出力する音声認識手段、音声認識した結果を、前記アプリケーションの実行に必要なデータ項目について、空きデータ項目が有るかを照合する照合手段、照合した結果、前記アプリケーションの実行に必要なデータ項目として重複していない場合は、複数の音声認識した結果を連結する連結手段、及び重複している場合は、複数の音声認識の結果のうち前記評価値が最大である音声認識の結果を選択する選択手段として機能させるコンピュータプログラムを開示する。

また、本願は、前記コンピュータを、更に、受付けた音声を話者ごとに分離する音声分離手段として機能させ、前記音声認識手段は前記音声分離手段にて分離した話者ごとの音声を用いるようにしてあるコンピュータプログラムを開示する。

本願では、複数の話者により発せられた音声を受け付け、話者ごとに受付けた音声を音声認識する。話者ごとに音声認識した結果を、アプリケーションの実行に必要なデータ項目について照合し、照合した結果、アプリケーションの実行に必要なデータ項目として重複していない複数の音声認識した結果は連結して１つのデータとし、重複している複数の音声認識の結果は、いずれか１つを選択することにより１つのデータとして構成する。これにより、単一のアプリケーションを、複数の話者により入力された音声の音声認識結果を連結又はいずれかを選択して構成した１つのデータに基づいて実行することができ、複数の話者が共同で１つのアプリケーションを実行することが可能となる。

本願では、音声パターンとの照合度合を示す評価値が最大である文字列を認識結果として出力し、重複している複数の音声認識の結果のうち評価値が最大である音声認識の結果を選択する。これにより、複数の話者により入力された音声の音声認識の結果が、同一のデータ項目として重複している場合、話者ごとの音声認識の評価値が最大である音声認識の結果を選択してアプリケーションを実行する。これにより、複数の話者による音声認識の結果のうち、評価値が最大である音声認識の結果を選択することで、誤認識の可能性が最も低い音声認識の結果に基づいてアプリケーションを実行することができ、複数の話者による音声が同時的に入力された場合であっても、誤認識することなくアプリケーションを実行することが可能となる。

本願では、音声認識対象となる音声が発せられた時点が最近である音声認識の結果を優先して選択する。これにより、複数の話者が同一の内容の音声を入力した場合、言い直し等により最も正確に音声を入力することができるのは、最後の音声入力者であることから、最後に発せられた音声を優先的に選択することにより、誤認識することなくアプリケーションを実行することが可能となる。

本願では、話者ごとに音声認識の結果を選択する優先度を示す優先順位を記憶しておき、又は発声の順番に応じて優先順位を特定し、優先順位の高い話者が発した音声の音声認識結果を優先して選択する。これにより、複数の話者が同一の内容の音声を入力した場合、優先順位の高い話者の音声を優先的に選択することにより、誤認識することなくアプリケーションを実行することが可能となる。

本願では、受付けた音声を話者ごとに分離することにより、複数の話者の音声を略同時的に受付けた場合であっても、話者ごとに分離した音声を音声認識することができ、単一のアプリケーションを、複数の話者により入力された音声の音声認識結果を連結又はいずれかを選択して構成した１つのデータに基づいて実行することができ、複数の話者が共同で１つのアプリケーションを実行することが可能となる。

本願によれば、単一のアプリケーションを、複数の話者により入力された音声の音声認識結果を連結又はいずれかを選択して構成した１つのデータに基づいて実行することができ、複数の話者が共同で１つのアプリケーションを実行することが可能となる。

本願によれば、複数の話者により入力された音声の音声認識の結果が、同一のデータ項目として重複している場合、話者ごとの音声認識の評価値が最大である音声認識の結果を選択してアプリケーションを実行する。これにより、複数の話者による音声認識の結果のうち、評価値が最大である音声認識の結果を選択することで、誤認識の可能性が最も低い音声認識の結果に基づいてアプリケーションを実行することができ、複数の話者による音声が同時的に入力された場合であっても、誤認識することなくアプリケーションを実行することが可能となる。

本願によれば、複数の話者が同一の内容の音声を入力した場合、言い直し等により最も正確に音声を入力することができるのは、最後の音声入力者であることから、最後に発せられた音声を優先的に選択することにより、誤認識することなくアプリケーションを実行することが可能となる。

本願によれば、複数の話者が同一の内容の音声を入力した場合、優先順位の高い話者の音声を優先的に選択することにより、誤認識することなくアプリケーションを実行することが可能となる。

本願によれば、複数の話者の音声を略同時的に受付けた場合であっても、話者ごとに分離した音声を音声認識することができ、単一のアプリケーションを、複数の話者により入力された音声の音声認識結果を連結又はいずれかを選択して構成した１つのデータに基づいて実行することができ、複数の話者が共同で１つのアプリケーションを実行することが可能となる。

以下、本発明の実施の形態に係る音声認識システムについて図面に基づいて具体的に説明する。図１は、本発明の実施の形態に係る音声認識システムの構成を示すブロック図である。図１に示すように、本実施の形態に係る音声認識システムは、複数のマイクロホンで構成されている音声入力装置２０から複数の話者の音声を受け付け、受け付けた音声を認識する音声認識装置１０を備えている。なお、音声入力装置２０は、複数のマイクロホンに限定されるものではなく、例えば複数の電話回線等、複数の音声を入力することができる形態であれば何でも良い。

音声認識装置１０は、少なくとも、ＣＰＵ（中央演算装置）１１、記録手段１２、ＲＡＭ１３、外部の通信手段と接続する通信インタフェース１４、及びＤＶＤ、ＣＤ等の可搬型記録媒体１６を用いる補助記録手段１５で構成される。

ＣＰＵ１１は、内部バス１７を介して音声認識装置１０の上述したようなハードウェア各部と接続されており、上述したハードウェア各部を制御するとともに、記録手段１２に記録されている処理プログラム、例えば複数の利用者の音声を受け付け、必要な場合に用いる話者ごとに分離するプログラム、話者ごとに音声を認識するプログラム、音声を認識した結果に基づいてアプリケーションへ出力するデータを生成するプログラム等に従って、種々のソフトウェア的機能を実行する。

記録手段１２は、内蔵される固定型記録装置（ハードディスク）、ＲＯＭ等で構成され、通信インタフェース１４を介した外部のコンピュータ、又はＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体１６から取得した、音声認識装置１０として機能させるために必要な処理プログラムを記録している。記録手段１２は、処理プログラムだけではなく、音声を認識した結果に基づいて生成されたデータを用いて実行されるアプリケーションも記録している。

ＲＡＭ１３は、ＤＲＡＭ等で構成され、ソフトウェアの実行時に発生する一時的なデータを記録する。通信インタフェース１４は内部バス１７に接続されており、外部のネットワーク網と通信することができるよう接続することにより、処理に必要なデータを送受信することができる。

音声入力装置２０は、複数のマイクロホンに２１、２１、・・・より構成されており、例えば少なくとも２個のマイクロホン２１、２１でマイクロホンアレイを構成している。音声入力装置２０は、複数の話者の音声を受け付け、音声データに変換してＣＰＵ１１へ送出する機能を備えている。

補助記録手段１５は、ＣＤ、ＤＶＤ等の可搬型記録媒体１６を用い、記録手段１２へ、ＣＰＵ１１が処理するプログラム、データ等をダウンロードする。また、ＣＰＵ１１が処理したデータをバックアップすべく書き込むことも可能である。

なお、本実施の形態では、音声認識装置１０と音声入力装置２０とが一体となっている場合について説明するが、特にこれに限定されるものではなく、音声入力装置２０が、複数の音声認識装置１０、１０、・・・とネットワーク網等を介して接続されている形態であっても良い。また、複数のマイクロホン２１、２１、・・・が同じ場所に存在する必要はなく、離れた場所に配置して有る複数のマイクロホン２１、２１、・・・がネットワーク網等を介して接続されている形態であっても良い。

本発明の実施の形態に係る音声認識システムの音声認識装置１０は、複数の話者による音声の入力待ち状態となる。もちろん、話者による音声の入力を促すために、記録手段１２に記憶されているアプリケーションに沿って、ＣＰＵ１１の指令により音声入出力部２０から音声出力を行っても良い。この場合、例えば「出発地と目的地とを、何々から何々までという形式で入力してください」等、次に話者による音声入力を期待する質問を音声出力する。

マイクロホンアレイ等の音声入力装置２０を介して、複数の話者の音声を受け付けた場合、音声認識装置１０のＣＰＵ１１は、受付けた音声の指向性を検出し、方向の異なる音声を異なる話者の音声として分離する。ＣＰＵ１１は、分離した音声について、話者ごとの波形データ、又は音声を音響分析した結果である特徴量を示すデータとして記録手段１２及びＲＡＭ１３に記録し、ＲＡＭ１３に記録された話者ごとの音声データについて音声認識を行う。音声認識処理に用いる音声認識エンジンは特に限定されるものではなく、一般に用いられる音声認識エンジンであれば何でも良い。また、音声認識用文法として、話者ごとの音声認識用文法を用いることにより、音声認識精度は大きく向上する。

なお、記録手段１２としては、内蔵されているハードディスクに限定されるものではなく、通信インタフェース１４を介して接続されている他のコンピュータに内蔵されているハードディスク等、大容量のデータを記録することができる記録媒体であれば何でもよい。

記録手段１２に記録されているアプリケーションは音声認識アプリケーションのロードモジュールであり、データの入力は音声入力装置２０を介して音声で行われる。したがって、ＣＰＵ１１は、話者により音声が入力された場合、音声認識結果によってアプリケーションで指定されている入力されるべきデータのデータ項目が全て満たされているか否かを判断する。

音声の入力が単一である場合、ＣＰＵ１１はデータ項目が全て充足されているか否かを判断し、充足されていると判断した場合にのみアプリケーションを実行すれば足りる。しかし、複数の話者による音声を任意に受付けることができる場合、データ項目によっては複数の話者の音声が重複している項目が存在する。また、１人の話者の音声ではデータ項目の全てを充足しておらず、他の話者の音声を組み合わせて初めて全てのデータ項目を充足し、アプリケーションを実行することができる場合も生じる。

まず、ＣＰＵ１１が複数の話者による音声を受付け、１人の話者の音声ではデータ項目の全てを充足しておらず、他の話者の音声を組み合わせて初めて全てのデータ項目を充足し、アプリケーションを実行することができる場合の動作について説明する。図２は、複数の音声の音声認識結果を連結する処理の一例を模式的に示す図である。

図２の例は、アプリケーションが、「○○」から「××」まで「△△」を通って到達する道順を教示するカーナビゲーションシステム用のプログラムであり、話者の音声を音声認識することにより、出発地「○○」、到着地「××」、及び経由地「△△」を受付けたことを確認した時点で、当該条件を具備した道順を示すものとする。

例えば運転者Ａが「大久保駅から大阪駅まで」と音声を発した場合、ＣＰＵ１１は、複数のマイクロホン２１、２１、・・・で構成する音声入力装置２０（マイクロホンアレイ）を通じて該音声を受付ける。ＣＰＵ１１は、受付けた音声から目的とする音声信号を抽出し、話者の方向を推定する。ＣＰＵ１１は、音声信号及び推定した話者方向に基づいて話者を特定し、特定した話者に対応する音声認識用文法に基づいて音声認識処理を行い、音声認識結果として出発地「大久保駅」、到着地「大阪駅」を出力する。なお、入力された音声が出発地及び到着地を含むことは、助詞「から」、「まで」を音声認識結果として検出することにより判断すれば足りる。もちろん、斯かる方法に限定されるものではない。

これにより、出発地「大久保駅」、到着地「大阪駅」については音声認識結果により充足することができる。しかし、経由地「△△」については受付けたことを認識することができず、アプリケーションを実行することができない。

そこで、例えば助手席の同乗者Ｂが「三宮を通って」と音声を発する。この場合、ＣＰＵ１１は、複数のマイクロホンで構成する音声入力装置２０（マイクロホンアレイ）を通じて該音声を受付ける。ＣＰＵ１１は、受付けた音声から目的とする音声信号を抽出し、話者の方向を推定する。ＣＰＵ１１は、音声信号及び推定した話者方向に基づいて話者を特定し、特定した話者に対応する音声認識用文法に基づいて音声認識処理を行い、音声認識結果として経由地「三宮」を出力する。なお、入力された音声が経由地を含むことは、助詞「通って」を音声認識結果として検出することにより判断すれば足りる。もちろん、斯かる方法に限定されるものではない。

これにより、経由地「三宮」については音声認識結果により充足することができる。しかし、出発地「○○」、到着地「××」については受付けたことを認識することができず、アプリケーションを実行することができない。

ＣＰＵ１１は、運転者Ａの音声に基づいて出力された音声認識結果である出発地「大久保駅」、到着地「大阪駅」、及び助手席の同乗者Ｂに基づいて出力された音声認識結果である経由地「三宮」を連結して、単一のアプリケーションに対する単一の入力とする。これにより、単一の話者では実行することができないアプリケーションを、複数の話者の音声の音声認識結果を連結することにより実行することができるようになる。

次に、ＣＰＵ１１が、複数の話者による音声を受付け、受付けた複数の話者の音声が重複しているデータ項目が存在している場合の動作について説明する。図３は、複数の音声の音声認識結果を選択する処理の一例を模式的に示す図である。

図３の例は、アプリケーションが、「○○」から「××」まで「△△」を通って到達する道順を教示するカーナビゲーションシステム用のプログラムであり、話者の音声を音声認識することにより、出発地「○○」、到着地「××」、及び経由地「△△」を受付けたことを確認した時点で、当該条件を具備した道順を示すものとする。

例えば運転者Ａが「大久保駅から大阪駅まで三宮を通って」と音声を発した場合、ＣＰＵ１１は、複数のマイクロホン２１、２１、・・・で構成する音声入力装置２０（マイクロホンアレイ）を通じて該音声を受付ける。ＣＰＵ１１は、受付けた音声から目的とする音声信号を抽出し、話者の方向を推定する。ＣＰＵ１１は、音声信号及び推定した話者方向に基づいて話者を特定し、話者ごとに音声を分離し、特定した話者に対応する音声認識用文法に基づいて音声認識処理を行い、音声認識結果として出発地「大久保駅」、到着地「大阪駅」、経由地「三宮」を出力する。なお、入力された音声が出発地、到着地、及び経由地を含むことは、助詞「から」、「まで」、「通って」を音声認識結果として検出することにより判断すれば足りる。もちろん、斯かる方法に限定されるものではない。

分離した音声には、話者ごとの音声の開始時間及び終了時間を含む音声ラベルを付加して音声の優先順位をつけても良いし、話者ラベルを付加して話者の優先順位付けを行い、音声認識結果の優先付けを行っても良い。また、本実施の形態のように音声入力装置２０としてマイクロホンアレイを用いる場合、話者方向を特定することにより音声を分離しているが、別個のマイクロホンから入力された場合、音声を話者ごとに分離する必要はない。

これにより、出発地「大久保駅」、到着地「大阪駅」、経由地「三宮」について音声認識結果により充足することができ、アプリケーションを実行することが可能となる。しかし、アプリケーションを実行する前に、例えば助手席の同乗者Ｂが「西明石を通って新大阪まで」と音声を発した場合、ＣＰＵ１１は、斯かる音声も複数のマイクロホン２１、２１、・・・で構成する音声入力装置２０（マイクロホンアレイ）を通じて受付ける。ＣＰＵ１１は、受付けた音声から目的とする音声信号を抽出し、話者の方向を推定する。ＣＰＵ１１は、音声信号及び推定した話者方向に基づいて話者を特定し、特定した話者に対応する音声認識用文法に基づいて音声認識処理を行い、音声認識結果として到着地「新大阪駅」、経由地「西明石」を出力する。なお、入力された音声が到着地、経由地を含むことは、助詞「まで」、「通って」を音声認識結果として検出することにより判断すれば足りる。もちろん、斯かる方法に限定されるものではない。

これにより、到着地及び経由地については音声認識結果が複数存在することになり、ＣＰＵ１１は、いずれか１つを選択する処理を行う。例えばＣＰＵ１１は、データ項目ごとに、音声認識結果として出力されている文字列について、それぞれの音声認識評価値を抽出し、評価値の高い音声認識結果を選択する。

図４は、データ項目「到着地」、「経由地」ごとに音声認識結果の評価値の一例を示す図である。図４（ａ）はデータ項目「到着地」に関する評価値を、図４（ｂ）はデータ項目「経由地」に関する評価値を、それぞれ示している。

図４の例では、データ項目「到着地」については、音声認識結果「新大阪駅」の方が評価値が高く、データ項目「経由地」については、音声認識結果「西明石」の方が評価値が高い。したがって、ＣＰＵ１１は、到着地「新大阪駅」、経由地「西明石」を選択する。

音声認識結果の選択方法は、音声認識結果の評価値に基づく方法に限定されるものではなく、音声認識対象となる音声が発せられた時点が最も遅い音声に対する音声認識結果を選択する方法であっても良い。すなわち、同一のデータ項目について複数の話者が何度も入力する場合、最後に入力された音声の方が正しい内容である可能性が高いからである。

また、ＣＰＵ１１は、受付けた音声から目的とする音声信号を抽出し、話者の方向を推定することにより話者を特定することができる。したがって、話者ごとに音声認識結果を選択する優先順位に関する情報を、優先順位情報１２１として事前に記録手段１２に記録しておき、重複した音声認識結果のうち、話者の優先順位が最も高い話者の音声に係る音声認識結果を選択する方法であっても良い。また、最初に発声した話者の優先順位を高める等、発声の順序に応じて優先順位を定めても良い。

図５は、本発明の実施の形態に係る音声認識システムの音声認識装置１０のＣＰＵ１１の処理手順を示すフローチャートである。音声認識装置１０のＣＰＵ１１は、音声入力装置２０から音声を受付け（ステップＳ５０１）、受付けた音声の指向性を検出し（ステップＳ５０２）、方向の異なる音声を異なる話者の音声として分離する（ステップＳ５０３）。ＣＰＵ１１は、分離した音声について、話者ごとの波形データ、音声を音響分析した結果である特徴量を示すデータ等の音声データに変換し、分離した話者ごとに音声認識を行う（ステップＳ５０４）。音声認識処理に用いる音声認識エンジンは特に限定されるものではなく、一般に用いられる音声認識エンジンであれば何でも良い。また、音声認識用文法として、話者ごとの音声認識用文法を用いることにより、音声認識精度は大きく向上する。

ＣＰＵ１１は、一の話者の音声認識結果に基づいてアプリケーションの実行に必要なデータ項目を充填し、該データ項目に空きデータ項目が有るか否かを判断する（ステップＳ５０５）。ＣＰＵ１１が、空きデータ項目が有ると判断した場合（ステップＳ５０５：ＹＥＳ）、ＣＰＵ１１は、他の話者の音声認識結果と連結することができるか否かを判断する（ステップＳ５０６）。具体的には、空きデータ項目を充足することができる音声認識結果が、他の話者の音声認識結果に存在するか否かを判断する。

ＣＰＵ１１が、他の話者の音声認識結果と連結することができないと判断した場合（ステップＳ５０６：ＮＯ）、アプリケーションの実行に必要なデータ項目を充足することができないものと判断し、処理を終了する。ＣＰＵ１１が、他の話者の音声認識結果と連結することができると判断した場合（ステップＳ５０６：ＹＥＳ）、ＣＰＵ１１は、音声認識結果を連結し（ステップＳ５０７）、ステップＳ５０５へ戻る。

ＣＰＵ１１が、空きデータ項目が無いと判断した場合（ステップＳ５０５：ＮＯ）、ＣＰＵ１１は、重複するデータ項目が有るか否かを判断する（ステップＳ５０８）。ＣＰＵ１１が、重複するデータ項目が有ると判断した場合（ステップＳ５０８：ＹＥＳ）、重複するデータ項目について、いずれか１つの音声認識結果を選択し（ステップＳ５０９）、すべてのデータ項目につき充足され、重複したデータ項目が無い状態でアプリケーションを実行する（ステップＳ５１０）。

以上のように本実施の形態によれば、複数の話者により発せられた音声を受け付け、話者ごとに音声認識した結果を、アプリケーションの実行に必要なデータ項目について照合し、照合した結果、アプリケーションの実行に必要なデータ項目として重複していない複数の音声認識した結果を連結し、重複している複数の音声認識の結果は、いずれか１つを選択することにより、単一のアプリケーションを実行することができ、複数の話者が共同で１つのアプリケーションを実行することが可能となる。

以上の実施の形態に関し、さらに以下の付記を開示する。

（付記１）
複数の話者に係る音声を受け付け、受付けた音声の認識結果に基づいて所定のアプリケーションを実行する音声認識システムにおいて、
話者ごとに受付けた音声を音声認識する音声認識手段と、
音声認識した結果を、前記アプリケーションの実行に必要なデータ項目について照合する照合手段と、
照合した結果、前記アプリケーションの実行に必要なデータ項目として重複していない複数の音声認識した結果を連結する連結手段と、
重複している複数の音声認識の結果のうちいずれかを選択する選択手段と
を備えることを特徴とする音声認識システム。

（付記２）
前記音声認識手段は、音声パターンとの照合度合を示す評価値を算出し、算出した評価値が最大である文字列を認識結果として出力するようにしてあり、
前記選択手段は、重複している複数の音声認識の結果のうち前記評価値が最大である音声認識の結果を選択するようにしてあることを特徴とする付記１記載の音声認識システム。

（付記３）
前記音声認識手段は、音声認識対象となる音声が発せられた時点及び認識結果を出力するようにしてあり、
前記選択手段は、音声が発せられた時点が後の音声認識結果を優先して選択するようにしてあることを特徴とする付記１又は２記載の音声認識システム。

（付記４）
話者ごとに音声認識の結果を選択する優先度を示す優先順位を記憶しておき、又は発声の順番に応じて優先順位を特定し、
前記選択手段は、優先順位の高い話者が発した音声の音声認識結果を優先して選択するようにしてあることを特徴とする付記１乃至３のいずれか一つに記載の音声認識システム。

（付記５）
受付けた音声を話者ごとに分離する音声分離手段を備えることを特徴とする付記１乃至４のいずれか一つに記載の音声認識システム。

（付記６）
複数の話者に係る音声を受け付け、受付けた音声の認識結果に基づいて所定のアプリケーションを実行する音声認識方法において、
音声認識した結果を、前記アプリケーションの実行に必要なデータ項目について照合し、
照合した結果、前記アプリケーションの実行に必要なデータ項目として重複していない複数の音声認識した結果を連結し、
重複している複数の音声認識の結果のうちいずれかを選択することを特徴とする音声認識方法。

（付記７）
音声パターンとの照合度合を示す評価値を算出し、
算出した評価値が最大である文字列を認識結果として出力し、
重複している複数の音声認識の結果のうち前記評価値が最大である音声認識の結果を選択することを特徴とする付記６記載の音声認識方法。

（付記８）
音声認識対象となる音声が発せられた時点及び認識結果を出力し、
音声が発せられた時点が後の音声認識結果を優先して選択することを特徴とする付記６又は７記載の音声認識方法。

（付記９）
話者ごとに音声認識の結果を選択する優先度を示す優先順位を記憶し、又は発声の順番に応じて優先順位を特定し、
優先順位の高い話者が発した音声の音声認識結果を優先して選択することを特徴とする付記６乃至８のいずれか一つに記載の音声認識方法。

（付記１０）
受付けた音声を話者ごとに分離することを特徴とする付記６乃至９のいずれか一つに記載の音声認識方法。

（付記１１）
複数の話者に係る音声を受け付け、受付けた音声の認識結果に基づいて所定のアプリケーションを実行するコンピュータで実行することが可能なコンピュータプログラムにおいて、
前記コンピュータを、
話者ごとに受付けた音声を音声認識する音声認識手段、
音声認識した結果を、前記アプリケーションの実行に必要なデータ項目について照合する照合手段、
照合した結果、前記アプリケーションの実行に必要なデータ項目として重複していない複数の音声認識した結果を連結する連結手段、及び
重複している複数の音声認識の結果のうちいずれかを選択する選択手段
として機能させることを特徴とするコンピュータプログラム。

（付記１２）
前記音声認識手段は、音声パターンとの照合度合を示す評価値を算出し、算出した評価値が最大である文字列を認識結果として出力するようにしてあり、
前記選択手段は、重複している複数の音声認識の結果のうち前記評価値が最大である音声認識の結果を選択するようにしてあることを特徴とする付記１１記載のコンピュータプログラム。

（付記１３）
前記音声認識手段は、音声認識対象となる音声が発せられた時点及び認識結果を出力するようにしてあり、
前記選択手段は、音声が発せられた時点が後の音声認識結果を優先して選択するようにしてあることを特徴とする付記１１又は１２記載のコンピュータプログラム。

（付記１４）
話者ごとに音声認識の結果を選択する優先度を示す優先順位を記憶しておき、又は発声の順番に応じて優先順位を特定し、
前記選択手段は、優先順位の高い話者が発した音声の音声認識結果を優先して選択するようにしてあることを特徴とする付記１１乃至１３のいずれか一つに記載のコンピュータプログラム。

（付記１５）
前記コンピュータを、
受付けた音声を話者ごとに分離する音声分離手段
として機能させることを特徴とする付記１１乃至１４のいずれか一つに記載のコンピュータプログラム。

本発明の実施の形態に係る音声認識システムの構成を示すブロック図である。複数の音声の音声認識結果を連結する処理の一例を模式的に示す図である。複数の音声の音声認識結果を選択する処理の一例を模式的に示す図である。データ項目「到着地」、「経由地」ごとに音声認識結果の評価値の一例を示す図である。本発明の実施の形態に係る音声認識システムの音声認識装置のＣＰＵの処理手順を示すフローチャートである。

符号の説明

１０音声認識装置
１１ＣＰＵ
１２記録手段
１３ＲＡＭ
１４通信インタフェース
１５補助記録手段
１６可搬型記録媒体
２０音声入力装置
１２１優先順位情報

Claims

複数の話者に係る音声を受け付け、受付けた音声の認識結果に基づいて所定のアプリケーションを実行する音声認識システムにおいて、
話者ごとに受付けた音声と音声認識用の音声パターンとの照合度合を示す評価値を算出し、算出した評価値が最大である文字列を認識結果として出力する音声認識手段と、
音声認識した結果を、前記アプリケーションの実行に必要なデータ項目について、空きデータ項目が有るかを照合する照合手段と、
照合した結果、前記アプリケーションの実行に必要なデータ項目として重複していない複数の音声認識した結果を連結する連結手段と、
重複している複数の音声認識の結果のうち前記評価値が最大である音声認識の結果を選択する選択手段と
を備えることを特徴とする音声認識システム。
前記音声認識手段は、音声認識対象となる音声が発せられた時点及び認識結果を出力するようにしてあり、
前記選択手段は、照合した結果、更に、前記アプリケーションの実行に必要な同一のデータ項目について複数回の音声が発せられたと判断した場合、音声が発せられた時点が後の音声認識結果を優先して選択するようにしてあることを特徴とする請求項１に記載の音声認識システム。
更に、話者ごとに音声認識の結果を選択する優先度を示す優先順位を記憶しておき、又は発声の順番に応じて優先順位を特定し、
前記選択手段は、優先順位の高い話者が発した音声の音声認識結果を優先して選択するようにしてあることを特徴とする請求項１又は請求項２に記載の音声認識システム。
更に、受付けた音声を話者ごとに分離する音声分離手段を備え、
前記音声認識手段は前記音声分離手段にて分離した話者ごとの音声を用いるようにしてあることを特徴とする請求項１乃至請求項３のいずれか一項に記載の音声認識システム。
複数の話者に係る音声を受け付け、受付けた音声の認識結果に基づいて所定のアプリケーションを実行する音声認識方法において、
話者ごとに受付けた音声と音声認識用のパターンとの照合度合を示す評価値を算出し、算出した評価値が最大である文字列を認識結果として出力し、
該認識結果を、前記アプリケーションの実行に必要なデータ項目について、空きデータ項目が有るかを照合し、
照合した結果、前記アプリケーションの実行に必要なデータ項目として重複していない場合は、複数の音声認識した結果を連結し、
重複している場合は、複数の音声認識の結果のうち前記評価値が最大である音声認識の結果を選択することを特徴とする音声認識方法。
更に、評価値を算出して認識結果を出力すべく、受付けた音声を話者ごとに分離するようにしてあることを特徴とする請求項５に記載の音声認識方法。
複数の話者に係る音声を受け付け、受付けた音声の認識結果に基づいて所定のアプリケーションを実行するコンピュータで実行することが可能なコンピュータプログラムにおいて、
前記コンピュータを、
話者ごとに受付けた音声と音声認識用のパターンとの照合度合を示す評価値を算出し、算出した評価値が最大である文字列を認識結果として出力する音声認識手段、
音声認識した結果を、前記アプリケーションの実行に必要なデータ項目について、空きデータ項目が有るかを照合する照合手段、
照合した結果、前記アプリケーションの実行に必要なデータ項目として重複していない場合は、複数の音声認識した結果を連結する連結手段、及び
重複している場合は、複数の音声認識の結果のうち前記評価値が最大である音声認識の結果を選択する選択手段
として機能させることを特徴とするコンピュータプログラム。
前記コンピュータを、更に、
受付けた音声を話者ごとに分離する音声分離手段として機能させ、
前記音声認識手段は前記音声分離手段にて分離した話者ごとの音声を用いるようにしてあることを特徴とする請求項７に記載のコンピュータプログラム。