JP2008089825A

JP2008089825A - 音声認識装置、および音声認識プログラム

Info

Publication number: JP2008089825A
Application number: JP2006268965A
Authority: JP
Inventors: Takuya Fukagai; 卓也深貝
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2006-09-29
Filing date: 2006-09-29
Publication date: 2008-04-17
Anticipated expiration: 2026-09-29
Also published as: JP4715704B2

Abstract

【課題】その場にいるメンバが利用する単語の傾向を類推することにより音声認識の精度を高めることを可能とする。
【解決手段】
グループ内の利用者をサブグループに分割し、利用者が属するグループ内で共同利用されるネットワークシステム上のテキスト情報から前記利用者及び前記サブグループと関連付けて単語を抽出し、前記単語を利用者及び関連するサブグループ識別情報とともにカスタマイズ用辞書データベースに記憶しておき、音声入力装置の周囲に存在する利用者のサブグループを特定すると、認識対象語彙を格納した音声認識用辞書データベースに基づき単語を選択する際に、カスタマイズ用辞書データベースを参照してサブグループに応じて音声認識処理で選択する単語の優先順位を調節する。
【選択図】図１

Description

本発明は音声認識に関し、特に音声認識装置の言語モデルが参照する音声認識辞書を利用環境に応じて自動カスタマイズする技術に関する。

音声認識は、利用者から発せられたアナログの音声信号を、ソフトウェアあるいはハードウェアでデジタルデータに変換し、その波形のパターンを予め登録しておいた音声認識辞書と照合し、どのような音声であるかを判断させる処理のことである。そのため、認識の対象となる単語が非常に多い場合には認識率の低下が問題となる。

例えばナビゲーション装置において、音声入力により目的地やその周辺の地名等を認識する音声認識装置では、音声認識の対象とする地名が非常に多く、認識時間の増加や認識率の低下が問題であった。そのような問題を解決させるために、認識対象単語の絞り込みの能力を向上し、音声認識装置の性能向上を実現させることを目的として、利用者の過去の履歴に基づいた行動、および前記行動の時間帯、頻度を含む履歴データベースと、利用者の要求と、前記履歴データベースの利用者の過去の行動履歴を比較して、前記履歴データベースの登録と更新を行い、履歴データベースと日付および現在時刻により利用者の行動を予測し、その予測により音声認識対象語彙を取得し、取得した語彙により音声認識辞書を変更し、利用者の行動を予測して動的に音声認識辞書を変更して、認識性能を改善する技術について開示されている（例えば、特許文献１参照）。

また、番組の多チャンネル化に伴い、電子番組ガイド（ＥｌｅｃｔｒｏｎｉｃＰｒｏｇｒａｍｇｕｉｄｅ：ＥＰＧ）と音声とを用いてＴＶ操作を行う番組案内装置においては、最新のＥＰＧデータを受信し、受信データを用いて本日又は明日以降の番組に対応した音声認識辞書を作成した後、余分なハードリソースを使用しないために、古い認識辞書を消去していた。しかしながら、番組案内装置では最新のＥＰＧデータを利用して辞書を作成するため、辞書内の認識単語は変化するが、利用者は辞書内の認識単語の変化をあまり意識しないものである。

前記のような問題を解決させるために、認識対象単語の増加を最低限に抑えつつ、認識率を向上させることができる音声認識辞書作成装置及び情報検索装置を提供することを目的として、過去に音声認識により認識した単語である過去認識単語を記憶する認識単語蓄積部と、視聴した番組の情報である視聴履歴単語を記憶する視聴履歴単語蓄積部と、基本認識辞書に存在しない過去認識単語及び視聴履歴単語を基本認識辞書に加えた利用者適応型認識辞書、および単語の種類に応じた「対象重み係数」と過去認識単語及び視聴履歴単語として記憶されているかに応じた「履歴重み係数」で重み付けを行った重み付き利用者適応型認識辞書を作成する辞書作成部とを備えるように構成した番組案内装置に関する技術が開示されている（例えば、特許文献２参照）。
特開２００２−３４１８９２号公報（第２−３頁）特開２００４−２９５１０２号公報（第２−３頁）

音声認識による単語入力は確定的なものではなく、尤度がついた正解候補群が求まり、そのうち最も尤度の高い候補が選択される仕組みになっている。このとき候補となる単語が多く存在すると認識率が低下する。しかしながら、音声認識装置を利用する利用者グループ(音声認識装置の置かれた場に存在する一人以上の人物)に合わせて候補となる単語を調整すれば、認識率を高めることが可能である。

例えばオフィス内の複数の利用者によって利用される音声認識装置の場合、オフィス内のだれが音声認識装置の置かれた場にいるかによって認識対象となる単語の候補が大きく変化する。従来の技術は過去の情報をもとにこれから発声される単語を予測するが、過去の情報だけではこのような利用者の変化に対応できない。

音声認識装置が複数の利用者を前にして利用される場面を考える。例えば、打ち合わせの場に置かれた音声認識装置を利用し、利用者が発話した単語に関する情報を検索する場面を想定する。このとき、音声認識装置に認識してもらいたい単語は、その場にいる利用者の組み合わせによって変化しうる。例えば、利用者Ａ／利用者Ｂ／利用者Ｃはグループ内でＸを担当する係だったとする。また、利用者Ｄ／利用者Ｅ／利用者Ｆはグループ内でYを担当する係だったとする。

利用者Ａ／利用者Ｂ／利用者Ｃだけがその場にいれば、Ｘに関連する単語が発話され、その単語に関する情報が検索される可能性が高くなる。利用者Ｄ／利用者Ｅ／利用者Ｆだけがその場にいれば、Yに関連する単語が発話され、その単語に関する情報が検索される可能性が高くなる。

上記の例では利用者と係を関連付けたが、グループ内で共同利用されるネットワークシステム上のテキスト情報から、利用者と単語を関連付けて利用することも可能であると予想される。例えば、利用者Ｇ／利用者Ｈ／利用者ＩがＺを担当する係だった場合、そのことはＺに関する単語を共有することによって利用者と単語の間にも反映されると考えられる。

本発明は上記課題に鑑みてなされたものであり、認識対象単語の絞込みの能力を向上させ、音声認識装置の性能向上を実現することを目的としている。

図１は、本発明における実施例の全体構成図が示してある。本発明の音声認識プログラム１０は、音声認識装置１として振る舞うコンピュータ上で動作するプログラムであり、サブグループ分割手段１１（請求項１におけるサブグループ分割ステップを実行する。）は、グループ内の利用者をサブグループに分割し、単語抽出手段１２（請求項１における単語抽出ステップを実行する。）は、利用者が属するグループ内で共同利用されるネットワークシステム上の、例えばストレージサーバ6上の共有ファイル６３内のテキスト情報から前記利用者と前記サブグルーブと関連付けて単語を抽出し、前記単語を前記利用者及び関連するサブグループを識別するサブグループ識別情報とともにカスタマイズ用辞書データベース（ＤＢ）２１に登録する。

音声情報入力手段１6（請求項１における音声情報入力ステップを実行する。）は、利用者が音声入力装置1に直接接続された音声入力装置7、または通信ネットワーク4を介して接続された端末装置3に接続された音声入力装置8を介して入力した音声情報を受信し、利用者特定手段１5（請求項１における利用者特定ステップを実行する。）は、音声入力装置7または音声入力装置8の周囲に存在する利用者のサブグループを特定し、音声認識手段１3（請求項１における音声認識ステップを実行する。）は、認識対象語彙を格納した音声認識用辞書データベース２２に基づき単語を選択し、音声認識調節手段１４（請求項１における音声認識調節ステップを実行する。）は、利用者特定手段１５が特定したサブグループとカスタマイズ用辞書データベース２１を参照して音声認識手段１３が選択する単語の優先順位を調節することにより、認識対象単語の絞込みの能力を向上させ、音声認識装置の精度を高めることが可能となる。

また、請求項１記載の音声認識装置を搭載したことを特徴とする音声認識可能なロボットを導入することにより、ロボットには利用者を認識する各種のセンサが搭載されているため利用者の認識率が高まる。そのため、利用者とサブグルーフとの対応関係が確実なものとなり、より音声認識の精度を高めることが可能となる。

さらに、利用者と関連付けられた単語に共通する単語が多く含まれる利用者を同じサブグループに属する利用者として識別することにより、より音声認識の精度を高めることが可能となる。

本発明は、その場にいるメンバが利用する単語の傾向を類推することにより音声認識の精度を高めることを可能とする。

（実施例）
図１は、本発明における実施例の全体構成図が示してある。音声認識装置１には、通信ネットワーク４を介して音声入力装置８が接続された端末装置３、グループの利用者が使用するメーリングリスト６１、グループのＷｅｂページ６２、共有ファイル６３が格納された記憶装置６が接続されたメールサーバ／Ｗｅｂサーバ／ストレージサーバ５が接続されている。なお、メールサーバ、Ｗｅｂサーバ、ストレージサーバはそれぞれ物理的に独立したサーバであるが説明の便宜上、本図では１つのサーバのように表示している。

更に、音声認識装置１には利用者とサブグループと関連付けて抽出された単語を格納するためのカスタマイズ養辞書データベース２１、音声認識装置１が認識対象とする語彙を格納した音声認識用辞書データベース２２、音声入力装置７または８の周囲に存在する利用者や利用者の属するサブグループを特定するための情報が格納された利用者識別データベース２３を格納した記憶装置２が接続されている。

音声認識プログラム１０は、サブグループ分割手段１１は、グループ内の利用者をサブグループに分割し、単語抽出手段１２は、利用者が属するグループ内で共同利用されるネットワークシステム上の、例えばストレージサーバ6上の共有ファイル６３内のテキスト情報から前記利用者と前記サブグルーブと関連付けて単語を抽出し、前記単語を前記利用者及び関連するサブグループを識別するサブグループ識別情報とともにカスタマイズ用辞書データベース２１に登録する。

音声情報入力手段１6は、利用者が音声入力装置1に直接接続された音声入力装置7、または通信ネットワーク4を介して接続された端末装置3に接続された音声入力装置8を介して入力した音声情報を受信し、利用者特定手段１5は、音声入力装置7または音声入力装置8の周囲に存在する利用者のサブグループを特定し、音声認識手段１3は、認識対象語彙を格納した音声認識用辞書データベース２２に基づき単語を選択し、音声認識調節手段１４は、利用者特定手段１５が特定したサブグループとカスタマイズ用辞書データベース２１を参照して音声認識手段１３が選択する単語の優先順位を調節することにより、認識対象単語の絞込みの能力を向上させ、音声認識装置の性能向上を図ることが可能となる。

具体的には、音声入力装置（７または８）の周りに、利用者Ａ、利用者Ｂ、利用者Ｃがいると仮定する。利用者特定手段１５は利用者がどのサブグループのメンバであるかを特定し、対応するサブグループＩＤを得る。利用者A、利用者B、利用者Cからなるサブグループに対応したＩＤ、利用者A、利用者Bからなるサブグループに対応したＩＤ、利用者B、利用者Cからなるサブグループに対応したＩＤ、利用者C、利用者Aからなるサブグループに対応したＩＤ、利用者Aのみからなるサブグループに対応したＩＤ、利用者Bのみからなるサブグループに対応したＩＤ、利用者Cのみからなるサブグループに対応したＩＤが得られる。

一例として、ロボットが備える機能の一部として本発明における音声認識装置を利用する場面を考える。ロボットは画像センサを利用して利用者の顔画像を取り込み、利用者を特定する。この処理でロボットは利用者Ａ／利用者Ｂ／利用者Ｃを特定したとする。

利用者Ａ／利用者Ｂ／利用者Ｃはロボットが利用される部署の特許係であり、利用者Ａ／利用者Ｂ／利用者Ｃの名前が同時に記述された文書には特許関連の用語が多く利用されていると予想される。ロボットは後述する図６で示すサブグループ・単語対応テーブル２を参照し、利用者Ａ／利用者Ｂ／利用者ＣからなるサブグループのサブグループIDに対応した単語のうち、優先度が上位２００位に入る単語の優先度を増加させて音声認識処理を実行する。

このとき、利用者Ａ／利用者Ｂまたは利用者Ｂ／利用者Ｃまたは利用者Ｃ／利用者ＡのみからなるサブグループのサブグループＩＤに対応した単語のうち、優先度が上位１００位に入る単語の優先度を増加させて音声認識処理を実行する。さらに、利用者Ａまたは利用者Ｂまたは利用者ＣのみからなるサブグループのサブグループＩＤに対応した単語のうち、優先度が上位５０位に入る単語の優先度を増加させて音声認識処理を実行する。

上記の処理の前提として、場に立ち会った利用者の組み合わせがその場で利用される単語を表しているという仮定がある。その場に存在する利用者全てを一つのサブグループとみなした場合を最優先すべきだが、その部分集合と考えられる利用者グループも関係していると考え、上記のように音声認識処理に反映させる単語の数を調整するものとする。

本実施例ではその場に立ち会った利用者全員からなるサブグループと、そのサブグループの部分集合としてのサブグループとの関係を音声認識処理の優先度の調整に利用する単語の数の増減によって定めている。しかし、本発明における反映のさせかたはこの方法に限るものではない。

その場に立ち会った利用者の部分集合としてのサブグループの効果よりもその場に立ち会った利用者全員からなるサブグループの効果を強くするアルゴリズムを利用する点が本発明の特徴である。また、その場に立ち会った利用者全員からなるサブグループの効果だけでなく、その場に立ち会った利用者の部分集合としてのサブグループの効果も取り入れる点も本発明の特徴である。

図２は、音声入力装置の周囲にいる人を特定するための情報が格納されている利用者識別テーブル例が示してある。例えば利用者Ａを特定するには、利用者に取り付けたＲＦＩＤ（Radio Frequency Identification）に格納された情報を読み取って予め利用者と対応づけられた個人識別情報と比較することにより利用者を特定したり、利用者の顔を撮像し予め利用者と対応つけられた個人識別情報(顔の画像情報とか顔の画像情報から得られた特徴情報など)と比較することにより利用者を特定したり、利用者の発する音声情報と予め利用者と対応づけられた個人識別情報(声紋とか音声の特徴情報など)とを比較するなどすることにより実現可能である。

本図には、上記のように利用者を特定するために必要な情報が格納されている。なお、利用者を特定する技術に関しては、従来技術であり本発明の本質的な部分ではないため詳細については省略する。

図３は、カスタマイズ用辞書ＤＢ内にある利用者・サブグループ対応テーブル例が示してある。このテーブルは図１１で示す単語抽出時に抽出した単語について、それを利用するサブグループのサブグループＩＤとメンバを関連付けて格納する。

図４は、カスタマイズ用辞書ＤＢ内にあるサブグループ・単語対応テーブル例１が示してある。このテーブルは図１１で示す単語抽出時に抽出した単語について、単語とその単語を利用するサブグループのサブグループＩＤと抽出した日付を関連付けて格納する。

図５は、カスタマイズ用辞書ＤＢ内にあるサブグループ・単語対応テーブル例２が示してある。このテーブルは図１１で示す単語抽出時に抽出した単語について、単語とその単語を利用するサブグループのサブグループＩＤと優先度を関連付けて格納する。

優先度は各サブグループIDに対応した単語の出現回数や日付などによって重み付けされた値として計算される。例えば、現在の日付に対応する優先度を６０とした場合、現在の日付よりもN日古い日付のデータは６０−Nの優先度を持つとみなし、得られた優先度の総和をとる方法が考えられる。

また、同一サブグループＩＤごとに優先度を付けて単語をテーブルに登録する際、同じ単語を多く共有する利用者のサブグループを共有される単語と組み合わせての優先度計算に追加することも考えられる。例えば、利用者Ｄ／利用者Ｅ／利用者Ｆが、同じ文書内には記述されていないが他の利用者があまり利用しない単語を多く利用していたとき、この関連性は意味を持つと考えられる。

上記の点を考慮した優先度の計算方法の一例を以下に記す。先ず、利用者ごとに、その利用者のみからなるサブグループＩＤに対応した各単語の利用回数を計算する。次に全単語利用回数に対する各単語の利用回数の割合を計算する。前述のように計算された各単語の割合のグループ内での平均値を計算する。その平均値の２倍以上の値をもつ割合で特定の単語を利用している利用者が２人以上存在したら、それらの利用者をサブグループにしたときのサブグループＩＤを単語とセットにして図４で示したサブグループ・単語対応テーブル１に登録する。

図６は、カスタマイズ用辞書ＤＢ内にある単語データ格納テーブル例１が示してある。このテーブルは図１１で示す単語抽出時に抽出した単語について、単語と単語ＩＤ、出現回数を格納する。図５で示した優先度を求める際に利用される。

図７は、カスタマイズ用辞書ＤＢ内にある単語データ格納テーブル例２が示してある。このテーブルは図１１で示す単語抽出時に抽出した単語について、単語と単語ＩＤ、関連付け回数を格納する。図５で示した優先度を求める際に利用される。

図８は、本発明に係る音声認識プログラムの全体処理の流れを示すフローチャートである。グループ内のメンバをサブグループに分割するステップ（Ｓ８０１）では、図３のようにグループ内のメンバのサブグループをグループＩＤと対応付け、カスタマイズ用辞書データベースに格納する。

ここで、音声認識装置が利用されるオフィス／家庭等に属するメンバの集合をグループと呼ぶ。グループ内の全てのメンバの組み合わせに対して、以下に記す本発明の処理を適用すると計算コストが大きくなる。そこで、例えば３０人のメンバからなるオフィスでは5人以下のメンバからなるサブグループを用意する。

サブグループと単語を対応付けてデータベースに登録するステップ（Ｓ８０２）では、グループ内で利用されるサーバ（メールサーバ、Ｗｅｂサーバ、ストレージサーバ等）から単語とサブグループを対応付けて収集する。

収集されたデータは図４のようにデータが収集された日付とともにサーバ上の記憶装置に登録される。ここで収集されたデータをもとに、サブグループごとに用意された図５で示すグループ・単語対応テーブル２を構築する。この処理のより詳細な処理の流れについては図９に示してある。

音声入力装置の周りにいるメンバに応じて単語優先度を調整するステップ（Ｓ８０３）では、音声入力装置の周りにいるメンバに応じて、音声認識で参照する単語優先度を調整する。このとき図５で示すグループ・単語対応テーブル２を参照する。この処理のより詳細な処理の流れについては図１０に示してある。これらのステップを完了させた後、音声認識プログラムは音声認識を実行するが、音声認識処理そのものは従来からある処理であり本発明の本質的な部分ではないので処理の詳細については省略する。

図９は、本発明に係る音声認識プログラムのサブグループ・単語対応づけ処理の流れを示すフローチャートである。グループ内のサーバのテキスト情報を参照するステップ（Ｓ９０１）では、グループ内で共同利用されるサーバ（メールサーバ、Ｗｅｂサーバ、ストレージサーバ）からテキスト情報を検索する。このステップでは、テキスト内に記述された単語と１人以上のメンバを対応付ける。一例として、図１２で示すようにある１つのメールの中に表れた１人以上のメンバと単語を対応付ける方法があげられる。

また、別の例として、図１３で示すようにグループ内で利用されるメーリングリストのやりとりを１つのテキスト集合とみなし、これらのテキスト集合の中に表れた１人以上のメンバと単語を対応付ける方法もあげられる。取得した単語をサブグループＩＤと対応付け、データベースに登録するステップ（Ｓ９０２）では、テキスト内に記述された単語と一人以上のメンバ（サブグループＩＤ）のペアを日付とともに図４で示したサブグループ・単語対応テーブル１に登録する。例えば、利用者Ａ／利用者Ｂ／利用者Ｃとある単語のペアを登録する場合、利用者Ａ／利用者Ｂ／利用者Ｃのサブグループである利用者Ａ／利用者Ｂ、利用者Ｂ／利用者Ｃ、利用者Ｃ／利用者Ａ、利用者Ａ、利用者Ｂ、利用者Ｃを単語と対応付けて登録する。

日付の古いデータをデータベースから削除するステップ（Ｓ９０３）では、登録された図４で示したサブグループ・単語対応テーブル１のデータのうち、日付が古くなったデータを削除する。例えば、２ヶ月以上前のデータは削除するようにする。

サブグループＩＤごとに、単語を優先度順に並べたテーブルを構築するステップ（Ｓ９０４）では、図４で示したサブグループ・単語対応テーブル１を参照し、図５で示したサブグループ・単語対応テーブル２を構築する。優先度は各サブグループIDに対応した単語の出現回数か日付によって重み付けされた値として計算する。例えば、現在の日付に対応する優先度を６０とし、現在の日付よりもＮ日古い日付のデータは６０−Nの優先度をもつとみなし、得られた優先度の総和をとる方法も考えられる。

図１０は、本発明に係る単語優先度調整処理の流れを示すフローチャートである。音声認識装置の周囲のメンバを特定するステップ（Ｓ１００１）では、ＲＦＩＤ／画像処理（顔認識等）／音声処理（話者認識）等の技術により音声認識装置の周囲に存在する１人以上のメンバを特定する。

特定されたメンバに応じて単語優先度を調整ステップ（Ｓ１００２）では、特定された音声入力装置の周囲にいる１人以上のメンバに応じて単語優先度を調整する。このとき図５で示したグループ・単語対応テーブル２のようなグループＩＤと単語優先度を対応付けたテーブルを参照する。

例えば、利用者Ａ／利用者Ｂ／利用者Ｃの３名が音声認識装置の周囲に存在するメンバとして特定されたとする。このとき、利用者Ａ／利用者Ｂ／利用者ＣからなるグループのグループＩＤに対応した単語のうち、優先度が上位２００位に入る単語を候補として音声認識処理を実行する。

このとき、利用者Ａ／利用者Ｂまたは利用者Ｂ／利用者Ｃまたは利用者Ｃ／利用者ＡのみからなるグループのグループＩＤに対応した単語のうち、優先度が上位１００位を候補として音声認識処理を実行する。さらに、利用者Ａまたは利用者Ｂまたは利用者ＣのみからなるグループのグループＩＤに対応した単語のうち、優先度が上位５０位に入る単語を候補として音声認識処理を実行する。上記の単語候補決定方法は１つの例である。

上記の方法以外に、デフォルトで一般的な単語の利用頻度を反映した単語優先度データを用意しておき、その優先度を図５で示したグループ・単語対応テーブル２のようなデータで調整する方法も考えられる。

図１１は、本発明に係る単語抽出の説明図が示してある。単語抽出には、単語抽出元がメーリングリストであればメールサーバ５上にあるグループ（オフィス等）で利用されるメーリングリスト６１内のテキストデータが、グループのＷｅｂページであればＷｅｂサーバ５上にあるグループで利用されるＷｅｂページ６２内のテキストデータが、共有ファイルであればストレージサーバ５上にあるグループで利用される共有ファイル６３内のテキストデータが対象となる。なお、メーリングリストから単語・サブグループの関連付けについては図１３で説明する。

グループ内で利用されるＷｅｂベースの例としては、スケジュール表や掲示板などが挙げられる。また、グループで利用される共有ファイル内のテキストデータの例としては、プロジェクトごとに用意されたプレゼンテーション資料などが挙げられる。単語抽出元ととしてメーリングリスト、グループのＷｅｂページ、共有ファイルは例として挙げたものであり、一般的にはネットワークシステム上のテキストデータ全般を対象とすることが可能である。

単語抽出手段１２は、メーリングリスト６１、グループのＷｅｂページ６２、共有ファイル６３からグループ内の利用者と関連付けられた単語を抽出し、カスタマイズ用辞書データベース内の図４で示すサブグループ・単語対応テ−ブル１に格納する。

図４で示したサブグループ・単語対応テーブル１のサブグループＩＤは図３で示した利用者・サブグループ対応テーブルに示すサブグループＩＤごとに用意される。また、サブグループ・単語対応テーブル１に単語を登録する際には単語を登録した日付も記録する。

この更新手続きを定期的に(例えば１日１回午前3時)実行し、カスタマイズ用辞書ＤＢを常に最新の状態にしておくものとする。なお、更新手続きで参照されるファイルは、ファイル更新日付が前回の更新手続き実行時刻よりも新しいものに限定する。更に、日付が古くなった単語（例えば日付が二ヶ月以上前のままの単語）は図４で示すサブグループ・単語対応テーブル１から削除する。

図１２は、グループで利用されるＷｅｂページ上の掲示板を抽出元として利用者・単語の抽出例が示してある。先ず、各文書からグループ内の利用者の名前と単語を抽出する。この例の場合、利用者Ａ／利用者Ｂ／利用者ＣからなるサブグループＩＤが歓迎会という文字に対応付けられて図４で示したサブグルーブ・単語対応テーブル１に格納される。

利用者Ａ、利用者Ｂからなるサブグループに対応したＩＤ、利用者Ｂ、利用者Ｃからなるサブグループに対応したＩＤ、利用者Ｃ、利用者Ａからなるサブグループに対応したID、利用者Aのみからなるサブグループに対応したID、利用者Bのみからなるサブグループに対応したID、利用者Cのみからなるサブグループに対応したIDを単語とセットにした値も同時に登録する。

上記のように各文書からグループ内の利用者の名前と単語を抽出する際、それらが同一のファイルから抽出された場合、あるいは同一の機能単位とみなされるテキストデータから抽出された場合、あるいは文書ファイル等において同一のページとみなされるテキストデータから抽出された場合、抽出された利用者の名前と単語のすべての組み合わせをサブグループとして扱うものとする。

図１３では、メーリングリストに投稿されたメールに基づいて単語・サブグループの関連付けについて説明する。メーリングリストと掲示板を利用する３０人のメンバからなるグループを例として単語とグループＩＤの関連付けを行う場合、３０人のメンバ全員を対象として図３で示した利用者・サブグループ対応テーブルのようなすべての組合せからなるサブグループを構築すると計算コストが大きくなる。そのため、本実施例では例えば３０人のメンバのうち５人以下のメンバの組み合わせを対象としてサブグループを構築するようにすることとする。

メーリングリストや掲示板では、メーリングリストに投稿された１つのメール、あるいは掲示板に登録された１つの文章を起点として、複数の利用者の回答が交換される。このように、１つの文書を起点として交換される文書の集合を１つのまとまりとみなすことができる。別の文書が起点となった場合は、異なる文書集合として扱う。これらのまとまりの中に表れた利用者の名前と使用された単語を組み合わせ、図４で示したサブグループ・単語対応テーブル１に格納する。

図１４は、ＲＦＩＤを利用した利用者識別方法の例が示してある。利用者にはそれぞれＲＦＩＤタグを備えたＩＣカード等を携帯するようにしてもらい、ＲＦＩＤ認識装置（ＲＦＩＤタグ情報の読取機能のみ有する場合：音声入力装置）により読み取った利用者のＲＦＩＤタグ情報を音声認識装置が受信して利用者の特定を行う。利用者の特定は、図２で示した利用者テーブル内に格納してあるＲＦＩＤタグ情報と比較して該当する利用者の有無で特定する。なお、利用者の特定はＲＦＩＤ認識装置で行ってもよく、その場合には特定された利用者情報を音声認識装置に伝える。

実施例の全体構成図利用者識別テーブル例利用者・サブグループ対応テーブル例サブグループ・単語対応テーブル例１サブグループ・単語対応テーブル例２単語データ格納テーブル例１単語データ格納テーブル例２全体処理の流れサブグループ・単語対応づけ処理の流れ単語優先度調整処理の流れ単語抽出の説明図利用者・単語の抽出例単語・サブグループ関連付け例ＲＦＩＤを利用した利用者識別例

符号の説明

１音声認識装置
２記憶装置
３端末装置
４通信ネットワーク
５メール／Ｗｅｂ／ストレージサーバ
６記憶装置
７音声入力装置
８音声入力装置
１０音声認識プログラム
１１サブグループ分割手段
１２単語抽出手段
１３音声認識手段
１４音声認識調節手段
１５利用者特定手段
１６音声情報入力手段
２１カスタマイズ用辞書ＤＢ
２２音声認識辞書ＤＢ
２３利用者識別ＤＢ
６１メーリングリスト
６２グループのＷｅｂページ
６３共用ファイル

Claims

グループ内の利用者をサブグループに分割するサブグループ分割手段と、
利用者が属するグループ内で共同利用されるネットワークシステム上のテキスト情報から前記利用者及び前記サブグループと関連付けて単語を抽出し、前記単語を前記利用者及び関連するサブグループを識別するサブグループ識別情報とともにカスタマイズ用辞書データベースに登録する単語抽出手段と、
利用者が音声入力装置を介して入力した音声情報を受信する音声情報入力手段と
前記音声入力装置の周囲に存在する利用者のサブグループを特定する利用者特定手段と、
認識対象語彙を格納した音声認識用辞書データベースに基づき単語を選択する音声認識手段と
前記利用者特定手段が特定したサブグループと前記カスタマイズ用辞書データベースを参照して前記音声認識手段が選択する単語の優先順位を調節する音声認識調節手段と、
を有することを特徴とする音声認識装置。
請求項１記載の音声認識装置を搭載したことを特徴とする音声認識可能なロボット。
前記利用者特定手段は、利用者の視覚情報、音声情報、または利用者に添付された非接触ＩＣ（Integrated Circuit）タグから読み取った情報、および前記利用者を特定するための情報、サブグループのメンバ構成情報を格納した利用者識別データベースに基づきサブグループを特定することを特徴とする請求項１記載の音声認識装置。
コンピュータに、
グループ内の利用者をサブグループに分割するサブグループ分割ステップと、
利用者が属するグループ内で共同利用されるネットワークシステム上のテキスト情報から利用者及び前記サブグループと関連付けて単語を抽出し、前記単語を前記利用者及び関連するサブグループを識別するサブグループ識別情報とともにカスタマイズ用辞書データベースに登録する単語抽出ステップと、
利用者が音声入力装置を介して入力した音声情報を受信する音声情報入力ステップと
前記音声入力装置の周囲に存在する利用者のサブグループを特定する利用者特定ステップと、
認識対象語彙を格納した音声認識用辞書データベースに基づき単語を選択する音声認識ステップと
前記利用者特定ステップが特定したサブグループと前記カスタマイズ用辞書データベースを参照して前記音声認識ステップが選択する単語の優先順位を調節する音声認識調節ステップと、
を実行させる音声認識プログラム。
前記音声認識調節ステップは、利用者と関連付けられた単語に共通する単語が多く含まれる利用者を同じサブグループに属する利用者として識別することを特徴とする請求項４記載の音声認識プログラム。