JP2008089825A - 音声認識装置、および音声認識プログラム - Google Patents

音声認識装置、および音声認識プログラム Download PDF

Info

Publication number
JP2008089825A
JP2008089825A JP2006268965A JP2006268965A JP2008089825A JP 2008089825 A JP2008089825 A JP 2008089825A JP 2006268965 A JP2006268965 A JP 2006268965A JP 2006268965 A JP2006268965 A JP 2006268965A JP 2008089825 A JP2008089825 A JP 2008089825A
Authority
JP
Japan
Prior art keywords
user
subgroup
word
voice
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2006268965A
Other languages
English (en)
Other versions
JP4715704B2 (ja
Inventor
Takuya Fukagai
卓也 深貝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2006268965A priority Critical patent/JP4715704B2/ja
Publication of JP2008089825A publication Critical patent/JP2008089825A/ja
Application granted granted Critical
Publication of JP4715704B2 publication Critical patent/JP4715704B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】その場にいるメンバが利用する単語の傾向を類推することにより音声認識の精度を高めることを可能とする。
【解決手段】
グループ内の利用者をサブグループに分割し、利用者が属するグループ内で共同利用されるネットワークシステム上のテキスト情報から前記利用者及び前記サブグループと関連付けて単語を抽出し、前記単語を利用者及び関連するサブグループ識別情報とともにカスタマイズ用辞書データベースに記憶しておき、音声入力装置の周囲に存在する利用者のサブグループを特定すると、認識対象語彙を格納した音声認識用辞書データベースに基づき単語を選択する際に、カスタマイズ用辞書データベースを参照してサブグループに応じて音声認識処理で選択する単語の優先順位を調節する。
【選択図】図1

Description

本発明は音声認識に関し、特に音声認識装置の言語モデルが参照する音声認識辞書を利用環境に応じて自動カスタマイズする技術に関する。
音声認識は、利用者から発せられたアナログの音声信号を、ソフトウェアあるいはハードウェアでデジタルデータに変換し、その波形のパターンを予め登録しておいた音声認識辞書と照合し、どのような音声であるかを判断させる処理のことである。そのため、認識の対象となる単語が非常に多い場合には認識率の低下が問題となる。
例えばナビゲーション装置において、音声入力により目的地やその周辺の地名等を認識する音声認識装置では、音声認識の対象とする地名が非常に多く、認識時間の増加や認識率の低下が問題であった。そのような問題を解決させるために、認識対象単語の絞り込みの能力を向上し、音声認識装置の性能向上を実現させることを目的として、利用者の過去の履歴に基づいた行動、および前記行動の時間帯、頻度を含む履歴データベースと、利用者の要求と、前記履歴データベースの利用者の過去の行動履歴を比較して、前記履歴データベースの登録と更新を行い、履歴データベースと日付および現在時刻により利用者の行動を予測し、その予測により音声認識対象語彙を取得し、取得した語彙により音声認識辞書を変更し、利用者の行動を予測して動的に音声認識辞書を変更して、認識性能を改善する技術について開示されている(例えば、特許文献1参照)。
また、番組の多チャンネル化に伴い、電子番組ガイド(Electronic Program guide:EPG)と音声とを用いてTV操作を行う番組案内装置においては、最新のEPGデータを受信し、受信データを用いて本日又は明日以降の番組に対応した音声認識辞書を作成した後、余分なハードリソースを使用しないために、古い認識辞書を消去していた。しかしながら、番組案内装置では最新のEPGデータを利用して辞書を作成するため、辞書内の認識単語は変化するが、利用者は辞書内の認識単語の変化をあまり意識しないものである。
前記のような問題を解決させるために、認識対象単語の増加を最低限に抑えつつ、認識率を向上させることができる音声認識辞書作成装置及び情報検索装置を提供することを目的として、過去に音声認識により認識した単語である過去認識単語を記憶する認識単語蓄積部と、視聴した番組の情報である視聴履歴単語を記憶する視聴履歴単語蓄積部と、基本認識辞書に存在しない過去認識単語及び視聴履歴単語を基本認識辞書に加えた利用者適応型認識辞書、および単語の種類に応じた「対象重み係数」と過去認識単語及び視聴履歴単語として記憶されているかに応じた「履歴重み係数」で重み付けを行った重み付き利用者適応型認識辞書を作成する辞書作成部とを備えるように構成した番組案内装置に関する技術が開示されている(例えば、特許文献2参照)。
特開2002−341892号公報 (第2−3頁) 特開2004−295102号公報 (第2−3頁)
音声認識による単語入力は確定的なものではなく、尤度がついた正解候補群が求まり、そのうち最も尤度の高い候補が選択される仕組みになっている。このとき候補となる単語が多く存在すると認識率が低下する。しかしながら、音声認識装置を利用する利用者グループ(音声認識装置の置かれた場に存在する一人以上の人物)に合わせて候補となる単語を調整すれば、認識率を高めることが可能である。
例えばオフィス内の複数の利用者によって利用される音声認識装置の場合、オフィス内のだれが音声認識装置の置かれた場にいるかによって認識対象となる単語の候補が大きく変化する。従来の技術は過去の情報をもとにこれから発声される単語を予測するが、過去の情報だけではこのような利用者の変化に対応できない。
音声認識装置が複数の利用者を前にして利用される場面を考える。例えば、打ち合わせの場に置かれた音声認識装置を利用し、利用者が発話した単語に関する情報を検索する場面を想定する。このとき、音声認識装置に認識してもらいたい単語は、その場にいる利用者の組み合わせによって変化しうる。例えば、利用者A/利用者B/利用者Cはグループ内でXを担当する係だったとする。また、利用者D/利用者E/利用者Fはグループ内でYを担当する係だったとする。
利用者A/利用者B/利用者Cだけがその場にいれば、Xに関連する単語が発話され、その単語に関する情報が検索される可能性が高くなる。利用者D/利用者E/利用者Fだけがその場にいれば、Yに関連する単語が発話され、その単語に関する情報が検索される可能性が高くなる。
上記の例では利用者と係を関連付けたが、グループ内で共同利用されるネットワークシステム上のテキスト情報から、利用者と単語を関連付けて利用することも可能であると予想される。例えば、利用者G/利用者H/利用者IがZを担当する係だった場合、そのことはZに関する単語を共有することによって利用者と単語の間にも反映されると考えられる。
本発明は上記課題に鑑みてなされたものであり、認識対象単語の絞込みの能力を向上させ、音声認識装置の性能向上を実現することを目的としている。
図1は、本発明における実施例の全体構成図が示してある。本発明の音声認識プログラム10は、音声認識装置1として振る舞うコンピュータ上で動作するプログラムであり、サブグループ分割手段11(請求項1におけるサブグループ分割ステップを実行する。)は、グループ内の利用者をサブグループに分割し、単語抽出手段12(請求項1における単語抽出ステップを実行する。)は、利用者が属するグループ内で共同利用されるネットワークシステム上の、例えばストレージサーバ6上の共有ファイル63内のテキスト情報から前記利用者と前記サブグルーブと関連付けて単語を抽出し、前記単語を前記利用者及び関連するサブグループを識別するサブグループ識別情報とともにカスタマイズ用辞書データベース(DB)21に登録する。
音声情報入力手段16(請求項1における音声情報入力ステップを実行する。)は、利用者が音声入力装置1に直接接続された音声入力装置7、または通信ネットワーク4を介して接続された端末装置3に接続された音声入力装置8を介して入力した音声情報を受信し、利用者特定手段15(請求項1における利用者特定ステップを実行する。)は、音声入力装置7または音声入力装置8の周囲に存在する利用者のサブグループを特定し、音声認識手段13(請求項1における音声認識ステップを実行する。)は、認識対象語彙を格納した音声認識用辞書データベース22に基づき単語を選択し、音声認識調節手段14(請求項1における音声認識調節ステップを実行する。)は、利用者特定手段15が特定したサブグループとカスタマイズ用辞書データベース21を参照して音声認識手段13が選択する単語の優先順位を調節することにより、認識対象単語の絞込みの能力を向上させ、音声認識装置の精度を高めることが可能となる。
また、請求項1記載の音声認識装置を搭載したことを特徴とする音声認識可能なロボットを導入することにより、ロボットには利用者を認識する各種のセンサが搭載されているため利用者の認識率が高まる。そのため、利用者とサブグルーフとの対応関係が確実なものとなり、より音声認識の精度を高めることが可能となる。
さらに、利用者と関連付けられた単語に共通する単語が多く含まれる利用者を同じサブグループに属する利用者として識別することにより、より音声認識の精度を高めることが可能となる。
本発明は、その場にいるメンバが利用する単語の傾向を類推することにより音声認識の精度を高めることを可能とする。
(実施例)
図1は、本発明における実施例の全体構成図が示してある。音声認識装置1には、通信ネットワーク4を介して音声入力装置8が接続された端末装置3、グループの利用者が使用するメーリングリスト61、グループのWebページ62、共有ファイル63が格納された記憶装置6が接続されたメールサーバ/Webサーバ/ストレージサーバ5が接続されている。なお、メールサーバ、Webサーバ、ストレージサーバはそれぞれ物理的に独立したサーバであるが説明の便宜上、本図では1つのサーバのように表示している。
更に、音声認識装置1には利用者とサブグループと関連付けて抽出された単語を格納するためのカスタマイズ養辞書データベース21、音声認識装置1が認識対象とする語彙を格納した音声認識用辞書データベース22、音声入力装置7または8の周囲に存在する利用者や利用者の属するサブグループを特定するための情報が格納された利用者識別データベース23を格納した記憶装置2が接続されている。
音声認識プログラム10は、サブグループ分割手段11は、グループ内の利用者をサブグループに分割し、単語抽出手段12は、利用者が属するグループ内で共同利用されるネットワークシステム上の、例えばストレージサーバ6上の共有ファイル63内のテキスト情報から前記利用者と前記サブグルーブと関連付けて単語を抽出し、前記単語を前記利用者及び関連するサブグループを識別するサブグループ識別情報とともにカスタマイズ用辞書データベース21に登録する。
音声情報入力手段16は、利用者が音声入力装置1に直接接続された音声入力装置7、または通信ネットワーク4を介して接続された端末装置3に接続された音声入力装置8を介して入力した音声情報を受信し、利用者特定手段15は、音声入力装置7または音声入力装置8の周囲に存在する利用者のサブグループを特定し、音声認識手段13は、認識対象語彙を格納した音声認識用辞書データベース22に基づき単語を選択し、音声認識調節手段14は、利用者特定手段15が特定したサブグループとカスタマイズ用辞書データベース21を参照して音声認識手段13が選択する単語の優先順位を調節することにより、認識対象単語の絞込みの能力を向上させ、音声認識装置の性能向上を図ることが可能となる。
具体的には、音声入力装置(7または8)の周りに、利用者A、利用者B、利用者Cがいると仮定する。利用者特定手段15は利用者がどのサブグループのメンバであるかを特定し、対応するサブグループIDを得る。利用者A、 利用者B、 利用者Cからなるサブグループに対応したID、利用者A、 利用者Bからなるサブグループに対応したID、利用者B、 利用者Cからなるサブグループに対応したID、利用者C、 利用者Aからなるサブグループに対応したID、利用者Aのみからなるサブグループに対応したID、利用者Bのみからなるサブグループに対応したID、利用者Cのみからなるサブグループに対応したIDが得られる。
一例として、ロボットが備える機能の一部として本発明における音声認識装置を利用する場面を考える。ロボットは画像センサを利用して利用者の顔画像を取り込み、利用者を特定する。この処理でロボットは利用者A/利用者B/利用者Cを特定したとする。
利用者A/利用者B/利用者Cはロボットが利用される部署の特許係であり、利用者A/利用者B/利用者Cの名前が同時に記述された文書には特許関連の用語が多く利用されていると予想される。ロボットは後述する図6で示すサブグループ・単語対応テーブル2を参照し、利用者A/利用者B/利用者CからなるサブグループのサブグループIDに対応した単語のうち、優先度が上位200位に入る単語の優先度を増加させて音声認識処理を実行する。
このとき、利用者A/利用者Bまたは利用者B/利用者Cまたは利用者C/利用者AのみからなるサブグループのサブグループIDに対応した単語のうち、優先度が上位100位に入る単語の優先度を増加させて音声認識処理を実行する。さらに、利用者Aまたは利用者Bまたは利用者CのみからなるサブグループのサブグループIDに対応した単語のうち、優先度が上位50位に入る単語の優先度を増加させて音声認識処理を実行する。
上記の処理の前提として、場に立ち会った利用者の組み合わせがその場で利用される単語を表しているという仮定がある。その場に存在する利用者全てを一つのサブグループとみなした場合を最優先すべきだが、その部分集合と考えられる利用者グループも関係していると考え、上記のように音声認識処理に反映させる単語の数を調整するものとする。
本実施例ではその場に立ち会った利用者全員からなるサブグループと、そのサブグループの部分集合としてのサブグループとの関係を音声認識処理の優先度の調整に利用する単語の数の増減によって定めている。しかし、本発明における反映のさせかたはこの方法に限るものではない。
その場に立ち会った利用者の部分集合としてのサブグループの効果よりもその場に立ち会った利用者全員からなるサブグループの効果を強くするアルゴリズムを利用する点が本発明の特徴である。また、その場に立ち会った利用者全員からなるサブグループの効果だけでなく、その場に立ち会った利用者の部分集合としてのサブグループの効果も取り入れる点も本発明の特徴である。
図2は、音声入力装置の周囲にいる人を特定するための情報が格納されている利用者識別テーブル例が示してある。例えば利用者Aを特定するには、利用者に取り付けたRFID(Radio Frequency Identification)に格納された情報を読み取って予め利用者と対応づけられた個人識別情報と比較することにより利用者を特定したり、利用者の顔を撮像し予め利用者と対応つけられた個人識別情報(顔の画像情報とか顔の画像情報から得られた特徴情報など)と比較することにより利用者を特定したり、利用者の発する音声情報と予め利用者と対応づけられた個人識別情報(声紋とか音声の特徴情報など)とを比較するなどすることにより実現可能である。
本図には、上記のように利用者を特定するために必要な情報が格納されている。なお、利用者を特定する技術に関しては、従来技術であり本発明の本質的な部分ではないため詳細については省略する。
図3は、カスタマイズ用辞書DB内にある利用者・サブグループ対応テーブル例が示してある。このテーブルは図11で示す単語抽出時に抽出した単語について、それを利用するサブグループのサブグループIDとメンバを関連付けて格納する。
図4は、カスタマイズ用辞書DB内にあるサブグループ・単語対応テーブル例1が示してある。このテーブルは図11で示す単語抽出時に抽出した単語について、単語とその単語を利用するサブグループのサブグループIDと抽出した日付を関連付けて格納する。
図5は、カスタマイズ用辞書DB内にあるサブグループ・単語対応テーブル例2が示してある。このテーブルは図11で示す単語抽出時に抽出した単語について、単語とその単語を利用するサブグループのサブグループIDと優先度を関連付けて格納する。
優先度は各サブグループIDに対応した単語の出現回数や日付などによって重み付けされた値として計算される。例えば、現在の日付に対応する優先度を60とした場合、現在の日付よりもN日古い日付のデータは60−Nの優先度を持つとみなし、得られた優先度の総和をとる方法が考えられる。
また、同一サブグループIDごとに優先度を付けて単語をテーブルに登録する際、同じ単語を多く共有する利用者のサブグループを共有される単語と組み合わせての優先度計算に追加することも考えられる。例えば、利用者D/利用者E/利用者Fが、同じ文書内には記述されていないが他の利用者があまり利用しない単語を多く利用していたとき、この関連性は意味を持つと考えられる。
上記の点を考慮した優先度の計算方法の一例を以下に記す。先ず、利用者ごとに、その利用者のみからなるサブグループIDに対応した各単語の利用回数を計算する。次に全単語利用回数に対する各単語の利用回数の割合を計算する。前述のように計算された各単語の割合のグループ内での平均値を計算する。その平均値の2倍以上の値をもつ割合で特定の単語を利用している利用者が2人以上存在したら、それらの利用者をサブグループにしたときのサブグループIDを単語とセットにして図4で示したサブグループ・単語対応テーブル1に登録する。
図6は、カスタマイズ用辞書DB内にある単語データ格納テーブル例1が示してある。このテーブルは図11で示す単語抽出時に抽出した単語について、単語と単語ID、出現回数を格納する。図5で示した優先度を求める際に利用される。
図7は、カスタマイズ用辞書DB内にある単語データ格納テーブル例2が示してある。このテーブルは図11で示す単語抽出時に抽出した単語について、単語と単語ID、関連付け回数を格納する。図5で示した優先度を求める際に利用される。
図8は、本発明に係る音声認識プログラムの全体処理の流れを示すフローチャートである。グループ内のメンバをサブグループに分割するステップ(S801)では、図3のようにグループ内のメンバのサブグループをグループIDと対応付け、カスタマイズ用辞書データベースに格納する。
ここで、音声認識装置が利用されるオフィス/家庭等に属するメンバの集合をグループと呼ぶ。グループ内の全てのメンバの組み合わせに対して、以下に記す本発明の処理を適用すると計算コストが大きくなる。そこで、例えば30人のメンバからなるオフィスでは5人以下のメンバからなるサブグループを用意する。
サブグループと単語を対応付けてデータベースに登録するステップ(S802)では、グループ内で利用されるサーバ(メールサーバ、Webサーバ、ストレージサーバ等)から単語とサブグループを対応付けて収集する。
収集されたデータは図4のようにデータが収集された日付とともにサーバ上の記憶装置に登録される。ここで収集されたデータをもとに、サブグループごとに用意された図5で示すグループ・単語対応テーブル2を構築する。この処理のより詳細な処理の流れについては図9に示してある。
音声入力装置の周りにいるメンバに応じて単語優先度を調整するステップ(S803)では、音声入力装置の周りにいるメンバに応じて、音声認識で参照する単語優先度を調整する。このとき図5で示すグループ・単語対応テーブル2を参照する。この処理のより詳細な処理の流れについては図10に示してある。これらのステップを完了させた後、音声認識プログラムは音声認識を実行するが、音声認識処理そのものは従来からある処理であり本発明の本質的な部分ではないので処理の詳細については省略する。
図9は、本発明に係る音声認識プログラムのサブグループ・単語対応づけ処理の流れを示すフローチャートである。グループ内のサーバのテキスト情報を参照するステップ(S901)では、グループ内で共同利用されるサーバ(メールサーバ、Webサーバ、ストレージサーバ)からテキスト情報を検索する。このステップでは、テキスト内に記述された単語と1人以上のメンバを対応付ける。一例として、図12で示すようにある1つのメールの中に表れた1人以上のメンバと単語を対応付ける方法があげられる。
また、別の例として、図13で示すようにグループ内で利用されるメーリングリストのやりとりを1つのテキスト集合とみなし、これらのテキスト集合の中に表れた1人以上のメンバと単語を対応付ける方法もあげられる。取得した単語をサブグループIDと対応付け、データベースに登録するステップ(S902)では、テキスト内に記述された単語と一人以上のメンバ(サブグループID)のペアを日付とともに図4で示したサブグループ・単語対応テーブル1に登録する。例えば、利用者A/利用者B/利用者Cとある単語のペアを登録する場合、利用者A/利用者B/利用者Cのサブグループである利用者A/利用者B、利用者B/利用者C、 利用者C/利用者A、 利用者A、 利用者B、 利用者Cを単語と対応付けて登録する。
日付の古いデータをデータベースから削除するステップ(S903)では、登録された図4で示したサブグループ・単語対応テーブル1のデータのうち、日付が古くなったデータを削除する。例えば、2ヶ月以上前のデータは削除するようにする。
サブグループIDごとに、単語を優先度順に並べたテーブルを構築するステップ(S904)では、図4で示したサブグループ・単語対応テーブル1を参照し、図5で示したサブグループ・単語対応テーブル2を構築する。優先度は各サブグループIDに対応した単語の出現回数か日付によって重み付けされた値として計算する。例えば、現在の日付に対応する優先度を60とし、現在の日付よりもN日古い日付のデータは60−Nの優先度をもつとみなし、得られた優先度の総和をとる方法も考えられる。
図10は、本発明に係る単語優先度調整処理の流れを示すフローチャートである。音声認識装置の周囲のメンバを特定するステップ(S1001)では、RFID/画像処理(顔認識等)/音声処理(話者認識)等の技術により音声認識装置の周囲に存在する1人以上のメンバを特定する。
特定されたメンバに応じて単語優先度を調整ステップ(S1002)では、特定された音声入力装置の周囲にいる1人以上のメンバに応じて単語優先度を調整する。このとき図5で示したグループ・単語対応テーブル2のようなグループIDと単語優先度を対応付けたテーブルを参照する。
例えば、利用者A/利用者B/利用者Cの3名が音声認識装置の周囲に存在するメンバとして特定されたとする。このとき、利用者A/利用者B/利用者CからなるグループのグループIDに対応した単語のうち、優先度が上位200位に入る単語を候補として音声認識処理を実行する。
このとき、利用者A/利用者Bまたは利用者B/利用者Cまたは利用者C/利用者AのみからなるグループのグループIDに対応した単語のうち、優先度が上位100位を候補として音声認識処理を実行する。さらに、利用者Aまたは利用者Bまたは利用者CのみからなるグループのグループIDに対応した単語のうち、優先度が上位50位に入る単語を候補として音声認識処理を実行する。上記の単語候補決定方法は1つの例である。
上記の方法以外に、デフォルトで一般的な単語の利用頻度を反映した単語優先度データを用意しておき、その優先度を図5で示したグループ・単語対応テーブル2のようなデータで調整する方法も考えられる。
図11は、本発明に係る単語抽出の説明図が示してある。単語抽出には、単語抽出元がメーリングリストであればメールサーバ5上にあるグループ(オフィス等)で利用されるメーリングリスト61内のテキストデータが、グループのWebページであればWebサーバ5上にあるグループで利用されるWebページ62内のテキストデータが、共有ファイルであればストレージサーバ5上にあるグループで利用される共有ファイル63内のテキストデータが対象となる。なお、メーリングリストから単語・サブグループの関連付けについては図13で説明する。
グループ内で利用されるWebベースの例としては、スケジュール表や掲示板などが挙げられる。また、グループで利用される共有ファイル内のテキストデータの例としては、プロジェクトごとに用意されたプレゼンテーション資料などが挙げられる。単語抽出元ととしてメーリングリスト、グループのWebページ、共有ファイルは例として挙げたものであり、一般的にはネットワークシステム上のテキストデータ全般を対象とすることが可能である。
単語抽出手段12は、メーリングリスト61、グループのWebページ62、共有ファイル63からグループ内の利用者と関連付けられた単語を抽出し、カスタマイズ用辞書データベース内の図4で示すサブグループ・単語対応テ−ブル1に格納する。
図4で示したサブグループ・単語対応テーブル1のサブグループIDは図3で示した利用者・サブグループ対応テーブルに示すサブグループIDごとに用意される。また、サブグループ・単語対応テーブル1に単語を登録する際には単語を登録した日付も記録する。
この更新手続きを定期的に(例えば1日1回午前3時)実行し、カスタマイズ用辞書DBを常に最新の状態にしておくものとする。なお、更新手続きで参照されるファイルは、ファイル更新日付が前回の更新手続き実行時刻よりも新しいものに限定する。更に、日付が古くなった単語(例えば日付が二ヶ月以上前のままの単語)は図4で示すサブグループ・単語対応テーブル1から削除する。
図12は、グループで利用されるWebページ上の掲示板を抽出元として利用者・単語の抽出例が示してある。先ず、各文書からグループ内の利用者の名前と単語を抽出する。この例の場合、利用者A/利用者B/利用者CからなるサブグループIDが歓迎会という文字に対応付けられて図4で示したサブグルーブ・単語対応テーブル1に格納される。
利用者A、利用者Bからなるサブグループに対応したID、利用者B、利用者Cからなるサブグループに対応したID、利用者C、利用者Aからなるサブグループに対応したID、利用者Aのみからなるサブグループに対応したID、利用者Bのみからなるサブグループに対応したID、利用者Cのみからなるサブグループに対応したIDを単語とセットにした値も同時に登録する。
上記のように各文書からグループ内の利用者の名前と単語を抽出する際、それらが同一のファイルから抽出された場合、あるいは同一の機能単位とみなされるテキストデータから抽出された場合、あるいは文書ファイル等において同一のページとみなされるテキストデータから抽出された場合、抽出された利用者の名前と単語のすべての組み合わせをサブグループとして扱うものとする。
図13では、メーリングリストに投稿されたメールに基づいて単語・サブグループの関連付けについて説明する。メーリングリストと掲示板を利用する30人のメンバからなるグループを例として単語とグループIDの関連付けを行う場合、30人のメンバ全員を対象として図3で示した利用者・サブグループ対応テーブルのようなすべての組合せからなるサブグループを構築すると計算コストが大きくなる。そのため、本実施例では例えば30人のメンバのうち5人以下のメンバの組み合わせを対象としてサブグループを構築するようにすることとする。
メーリングリストや掲示板では、メーリングリストに投稿された1つのメール、あるいは掲示板に登録された1つの文章を起点として、複数の利用者の回答が交換される。このように、1つの文書を起点として交換される文書の集合を1つのまとまりとみなすことができる。別の文書が起点となった場合は、異なる文書集合として扱う。これらのまとまりの中に表れた利用者の名前と使用された単語を組み合わせ、図4で示したサブグループ・単語対応テーブル1に格納する。
図14は、RFIDを利用した利用者識別方法の例が示してある。利用者にはそれぞれRFIDタグを備えたICカード等を携帯するようにしてもらい、RFID認識装置(RFIDタグ情報の読取機能のみ有する場合:音声入力装置)により読み取った利用者のRFIDタグ情報を音声認識装置が受信して利用者の特定を行う。利用者の特定は、図2で示した利用者テーブル内に格納してあるRFIDタグ情報と比較して該当する利用者の有無で特定する。なお、利用者の特定はRFID認識装置で行ってもよく、その場合には特定された利用者情報を音声認識装置に伝える。
実施例の全体構成図 利用者識別テーブル例 利用者・サブグループ対応テーブル例 サブグループ・単語対応テーブル例1 サブグループ・単語対応テーブル例2 単語データ格納テーブル例1 単語データ格納テーブル例2 全体処理の流れ サブグループ・単語対応づけ処理の流れ 単語優先度調整処理の流れ 単語抽出の説明図 利用者・単語の抽出例 単語・サブグループ関連付け例 RFIDを利用した利用者識別例
符号の説明
1 音声認識装置
2 記憶装置
3 端末装置
4 通信ネットワーク
5 メール/Web/ストレージサーバ
6 記憶装置
7 音声入力装置
8 音声入力装置
10 音声認識プログラム
11 サブグループ分割手段
12 単語抽出手段
13 音声認識手段
14 音声認識調節手段
15 利用者特定手段
16 音声情報入力手段
21 カスタマイズ用辞書DB
22 音声認識辞書DB
23 利用者識別DB
61 メーリングリスト
62 グループのWebページ
63 共用ファイル

Claims (5)

  1. グループ内の利用者をサブグループに分割するサブグループ分割手段と、
    利用者が属するグループ内で共同利用されるネットワークシステム上のテキスト情報から前記利用者及び前記サブグループと関連付けて単語を抽出し、前記単語を前記利用者及び関連するサブグループを識別するサブグループ識別情報とともにカスタマイズ用辞書データベースに登録する単語抽出手段と、
    利用者が音声入力装置を介して入力した音声情報を受信する音声情報入力手段と
    前記音声入力装置の周囲に存在する利用者のサブグループを特定する利用者特定手段と、
    認識対象語彙を格納した音声認識用辞書データベースに基づき単語を選択する音声認識手段と
    前記利用者特定手段が特定したサブグループと前記カスタマイズ用辞書データベースを参照して前記音声認識手段が選択する単語の優先順位を調節する音声認識調節手段と、
    を有することを特徴とする音声認識装置。
  2. 請求項1記載の音声認識装置を搭載したことを特徴とする音声認識可能なロボット。
  3. 前記利用者特定手段は、利用者の視覚情報、音声情報、または利用者に添付された非接触IC(Integrated Circuit)タグから読み取った情報、および前記利用者を特定するための情報、サブグループのメンバ構成情報を格納した利用者識別データベースに基づきサブグループを特定することを特徴とする請求項1記載の音声認識装置。
  4. コンピュータに、
    グループ内の利用者をサブグループに分割するサブグループ分割ステップと、
    利用者が属するグループ内で共同利用されるネットワークシステム上のテキスト情報から利用者及び前記サブグループと関連付けて単語を抽出し、前記単語を前記利用者及び関連するサブグループを識別するサブグループ識別情報とともにカスタマイズ用辞書データベースに登録する単語抽出ステップと、
    利用者が音声入力装置を介して入力した音声情報を受信する音声情報入力ステップと
    前記音声入力装置の周囲に存在する利用者のサブグループを特定する利用者特定ステップと、
    認識対象語彙を格納した音声認識用辞書データベースに基づき単語を選択する音声認識ステップと
    前記利用者特定ステップが特定したサブグループと前記カスタマイズ用辞書データベースを参照して前記音声認識ステップが選択する単語の優先順位を調節する音声認識調節ステップと、
    を実行させる音声認識プログラム。
  5. 前記音声認識調節ステップは、利用者と関連付けられた単語に共通する単語が多く含まれる利用者を同じサブグループに属する利用者として識別することを特徴とする請求項4記載の音声認識プログラム。
JP2006268965A 2006-09-29 2006-09-29 音声認識装置、および音声認識プログラム Expired - Fee Related JP4715704B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006268965A JP4715704B2 (ja) 2006-09-29 2006-09-29 音声認識装置、および音声認識プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006268965A JP4715704B2 (ja) 2006-09-29 2006-09-29 音声認識装置、および音声認識プログラム

Publications (2)

Publication Number Publication Date
JP2008089825A true JP2008089825A (ja) 2008-04-17
JP4715704B2 JP4715704B2 (ja) 2011-07-06

Family

ID=39374063

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006268965A Expired - Fee Related JP4715704B2 (ja) 2006-09-29 2006-09-29 音声認識装置、および音声認識プログラム

Country Status (1)

Country Link
JP (1) JP4715704B2 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010032865A (ja) * 2008-07-30 2010-02-12 Kddi Corp 音声認識装置、音声認識システムおよびプログラム
WO2014011076A1 (ru) * 2012-07-09 2014-01-16 Sherbakov Andrei Yuryevich Способ контекстного обмена информацией
US9045098B2 (en) 2009-12-01 2015-06-02 Honda Motor Co., Ltd. Vocabulary dictionary recompile for in-vehicle audio system
JP2016119615A (ja) * 2014-12-22 2016-06-30 キヤノン株式会社 撮像装置、音声コマンド機能の設定方法、コンピュータプログラム、及び記憶媒体
JP2017146587A (ja) * 2016-02-19 2017-08-24 株式会社東芝 音声翻訳装置、音声翻訳方法及びプログラム

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11327583A (ja) * 1998-03-27 1999-11-26 Internatl Business Mach Corp <Ibm> ネットワ―ク話し言葉語彙システム
JP2002304407A (ja) * 2001-04-03 2002-10-18 Canon Inc プログラム及び情報処理装置
JP2002366190A (ja) * 2001-06-07 2002-12-20 Nippon Hoso Kyokai <Nhk> 統計的言語モデル生成装置および統計的言語モデル生成プログラム
JP2003255985A (ja) * 2002-02-28 2003-09-10 Toshiba Corp 統計的言語モデル作成方法及び装置並びにプログラム
JP2004163541A (ja) * 2002-11-11 2004-06-10 Mitsubishi Electric Corp 音声応答装置
JP2006243555A (ja) * 2005-03-04 2006-09-14 Nec Corp 対応決定システム、ロボット、イベント出力サーバ、および対応決定方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11327583A (ja) * 1998-03-27 1999-11-26 Internatl Business Mach Corp <Ibm> ネットワ―ク話し言葉語彙システム
JP2002304407A (ja) * 2001-04-03 2002-10-18 Canon Inc プログラム及び情報処理装置
JP2002366190A (ja) * 2001-06-07 2002-12-20 Nippon Hoso Kyokai <Nhk> 統計的言語モデル生成装置および統計的言語モデル生成プログラム
JP2003255985A (ja) * 2002-02-28 2003-09-10 Toshiba Corp 統計的言語モデル作成方法及び装置並びにプログラム
JP2004163541A (ja) * 2002-11-11 2004-06-10 Mitsubishi Electric Corp 音声応答装置
JP2006243555A (ja) * 2005-03-04 2006-09-14 Nec Corp 対応決定システム、ロボット、イベント出力サーバ、および対応決定方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010032865A (ja) * 2008-07-30 2010-02-12 Kddi Corp 音声認識装置、音声認識システムおよびプログラム
US9045098B2 (en) 2009-12-01 2015-06-02 Honda Motor Co., Ltd. Vocabulary dictionary recompile for in-vehicle audio system
WO2014011076A1 (ru) * 2012-07-09 2014-01-16 Sherbakov Andrei Yuryevich Способ контекстного обмена информацией
JP2016119615A (ja) * 2014-12-22 2016-06-30 キヤノン株式会社 撮像装置、音声コマンド機能の設定方法、コンピュータプログラム、及び記憶媒体
JP2017146587A (ja) * 2016-02-19 2017-08-24 株式会社東芝 音声翻訳装置、音声翻訳方法及びプログラム

Also Published As

Publication number Publication date
JP4715704B2 (ja) 2011-07-06

Similar Documents

Publication Publication Date Title
US20220214775A1 (en) Method for extracting salient dialog usage from live data
US10853582B2 (en) Conversational agent
US8170866B2 (en) System and method for increasing accuracy of searches based on communication network
EP2863300B1 (en) Function execution instruction system, function execution instruction method, and function execution instruction program
CN114556333A (zh) 由助理系统启用的智能摄像机
US20170062010A1 (en) Computerized system and method for formatted transcription of multimedia content
JP2008533576A (ja) 電子デバイスのカレンダーアプリケーションのための情報の形成
US20190122181A1 (en) Information processing apparatus, information processing method, and program
JP4715704B2 (ja) 音声認識装置、および音声認識プログラム
KR20180081922A (ko) 전자 장치의 입력 음성에 대한 응답 방법 및 그 전자 장치
CN108153875B (zh) 语料处理方法、装置、智能音箱和存储介质
TW202301081A (zh) 輔助系統之基於真實世界文字偵測的任務執行
WO2023129255A1 (en) Intelligent character correction and search in documents
US20090292692A1 (en) Information Search Method and Information Processing Apparatus
TW202301080A (zh) 輔助系統的多裝置調解
KR101440887B1 (ko) 영상 및 음성 정보를 이용한 명함 인식 방법 및 장치
CN113539234B (zh) 语音合成方法、装置、系统及存储介质
KR20160055059A (ko) 음성 신호 처리 방법 및 장치
CN113539235B (zh) 文本分析与语音合成方法、装置、系统及存储介质
CN106663112A (zh) 呈现与实体相关联的事件的信息卡
CN114242047A (zh) 一种语音处理方法、装置、电子设备及存储介质
KR101896479B1 (ko) 메모 등록을 위한 시스템, 방법 및 그에 대한 기록매체
US11521593B2 (en) Method of embodying online media service having multiple voice systems
JP2019008378A (ja) 広告システム及び広告方法
WO2019208211A1 (ja) サーバ装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090611

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110225

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110301

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110314

R150 Certificate of patent or registration of utility model

Ref document number: 4715704

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140408

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees