JP3437617B2 - 時系列データ記録再生装置 - Google Patents

時系列データ記録再生装置

Info

Publication number
JP3437617B2
JP3437617B2 JP32523193A JP32523193A JP3437617B2 JP 3437617 B2 JP3437617 B2 JP 3437617B2 JP 32523193 A JP32523193 A JP 32523193A JP 32523193 A JP32523193 A JP 32523193A JP 3437617 B2 JP3437617 B2 JP 3437617B2
Authority
JP
Japan
Prior art keywords
data
time
information
series data
key
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP32523193A
Other languages
English (en)
Other versions
JPH0749695A (ja
Inventor
重宣 瀬戸
洋一 竹林
康嗣 川倉
博 溝口
久子 田中
秀昭 新地
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Toshiba Development and Engineering Corp
Original Assignee
Toshiba Corp
Toshiba Digital Media Engineering Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp, Toshiba Digital Media Engineering Corp filed Critical Toshiba Corp
Priority to JP32523193A priority Critical patent/JP3437617B2/ja
Publication of JPH0749695A publication Critical patent/JPH0749695A/ja
Priority to US08/720,218 priority patent/US5787414A/en
Application granted granted Critical
Publication of JP3437617B2 publication Critical patent/JP3437617B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は時系列データを格納し、
格納した時系列データを再生する時系列データ記録再生
装置に関する。
【0002】
【従来の技術】近年、計算機の処理能力の向上を背景
に、音声、画像などのマルチメディアデータの格納と再
生および編集処理を行うために、マルチメディアデータ
の記録や検索を様々な形態で行うことが可能になってい
る。
【0003】大容量記録媒体が比較的容易に利用できる
ようになり、マルチメディアデータの入出力あるいは加
工、編集処理によるアプリケーションが開発されている
ものの、これらは単にマルチメディアデータの出し入れ
による編集機能の実現にとどまっている。
【0004】膨大なデータ量となるマルチメディアデー
タの記録は、十分な記録容量を有する記録媒体を用いる
ことにより実現することは可能である。しかし、記録し
たマルチメディアデータの検索と出力は、そのデータの
量が膨大になるほど、記憶されたデータの中から必要な
部分を探し出すための計算機の労力が大きくなるため、
効果的に実現されているとはいえない。
【0005】特に、扱うデータが時系列データであれ
ば、検索に要する時間はデータの時間の長さに比例して
長くなる。また、利用者が検索して出力したい情報は必
ずしも膨大なマルチメディアデータそのものであるとは
限らず、むしろ、マルチメディアデータの中の意味のあ
る部分であったり、あるいはその意味そのもの、つま
り、キーデータであることが多い。
【0006】このキーデータは、従来の単なるマルチメ
ディアデータの記録・再生・編集処理だけでは得ること
ができない。例えば、音声データとして「えーと、オレ
ンジジュースを1つ、いや、3つほしい。」という発言
が入力された場合、この入力された音声データをそのま
ま出力するよりも「オレンジジュースを3つほしい。」
という主旨の意味のある情報を出力するほうが、利用者
はわかりやすい。
【0007】そのため、マルチメディアの認識処理を行
いキーデータを検出し、少なくとも検出した前記キーデ
ータと、このキーデータと前記時系列データとを関連付
けるリンク情報で構成される構造情報を作成し、キーデ
ータを含む構造情報の一部の組み合わせを意味のある部
分として出力する必要がある。
【0008】このような認識処理などの自動的に構造情
報を生成する構造解析処理においてまず問題となるの
は、実時間処理や検出したキーデータの誤りの問題であ
る。実時間処理の問題は、計算機能力の向上により、音
声、画像などを認識する処理が十分リアルタイムに実現
できるようになりつつある。
【0009】構造解析結果の誤りの問題は、あらかじめ
キーデータに誤りが含まれ得る場合もあることを前提と
して、キーデータ生成処理で自動的に生成されたキーデ
ータを利用者が修正したり、利用者がキーデータそのも
のを直接付加するといった更新処理を行うことにより、
さらに正確なキーデータを作成することができる。しか
し、キーデータを後の検索時の検索キーとして利用する
マルチメディアデータの記録・検索装置はまだ存在して
いない。
【0010】
【発明が解決しようとする課題】上述のような従来のマ
ルチメディア時系列データの記録・検索装置では、記録
・再生・編集処理といったマルチメディア時系列データ
の単なる出し入れによる編集機能の実現は可能であっ
た。
【0011】また、マルチメディア時系列データの認識
処理も、十分リアルタイムに実現できるようになりつつ
あるが、利用者にとって意味のあるキーデータを得るこ
とはできなかった。
【0012】本発明は、マルチメディア時系列データの
中から利用者にとって必要な意味のある部分だけを取り
出して再生したり、時系列データの中の意味のある情報
を出力することのできる、時系列データ記録再生装置を
提供することを目的とする。
【0013】また、構造情報を生成する構造解析処理能
力の向上のためにシステムを改良していく必要がある
が、構造解析の処理結果をもとに改良するシステムを提
供することを目的とする。
【0014】
【課題を解決するための手段】本発明は、上記課題を解
決するために、入力データに識別データを付加してマル
チメディアの時系列データとする時系列データ入力手段
と、前記時系列データを格納する時系列データ格納手段
と、前記時系列データからキーデータを検出し、少なく
とも検出したキーデータと、このキーデータと前記時系
列データを関連付けるリンク情報とで構成される構造情
報を生成する構造情報解析手段と、この構造情報解析手
段で生成された構造情報を格納する構造情報格納手段
と、前記キーデータを検索キーとして、前記構造情報格
納手段に格納された前記構造情報を検索し、検索された
前記構造情報のリンク情報に基づいて前記時系列データ
を検索する検索手段とを具備し、この検索手段によって
検索されたこの時系列データを再生することを特徴とす
る。
【0015】
【作用】本発明の時系列データ記録再生装置によれば、
時系列データや構造情報の中から、時系列データや利用
者の必要な情報を検索する場合に、キーデータを検索キ
ーとして時系列データや利用者の必要な情報を取り出す
ことができる。
【0016】また、利用者が直接キーデータを入力でき
るため、構造解析手段において自動的に生成した構造情
報が誤っていたり不十分である場合も、構造情報格納手
段に記録されている構造情報を情報出力手段で画面出力
し確認しながら、利用者が随時検索キーとなるキーデー
タの修正・追加ができる。
【0017】さらに、現時点において構造情報が不十分
である場合にも、既に時系列データ格納手段に記録され
ている時系列データを利用して新たに構造情報を作成す
ることにより、必要なキーデータが含まれる構造情報を
改めて構築し直すことができる。
【0018】
【実施例】まず、音声や動画像のような時系列データを
認識・処理するシステム(認識理解システムと呼ぶこと
にする)に適用した本発明の一実施例について説明す
る。ここでは、認識・理解だけでなく、その結果を受け
て何らかの応答・出力する応答システムや対話システム
であってもよい。
【0019】例えば、キーデータは、認識・理解などの
処理結果である。リンク情報は、処理結果を得るもとと
なった時系列データとの対応を示す情報である。即ち、
時系列データのどの部分から得たキーデータであるかを
示す情報である。
【0020】一般に、認識・理解などの処理は、複数の
処理段階を経る。例えば音声認識理解であれば、音声区
間の検出、音声分析、パターン認識、言語処理などの複
数の処理を経る。単語スポティングをベースとする音声
認識(坪井、橋本、竹林:“キーボードスポッティング
に基づく連続音声理解”電子情報通信学会技術研究報
告、SP-91-95,pp.33-40(1991.12))ならば、単語検出、
構文解析、単語解析、意味解析などの処理を経る。
【0021】このように、複数の処理結果を経る場合、
キーデータは、最終的な処理結果だけでなく、途中の各
処理段階における中間的な処理結果もキーデータとする
ことも可能である。
【0022】この場合、リンク情報はもとの入力時系列
データとの対応を示す情報としてもよいし、前の処理段
階における処理結果との対応を示す情報としてもよい。
例えば、上述の単語スポティングをベースとする音声理
解ならば、検出された単語、単語列からなる構文木、解
析結果として得られた意味を各々キーデータとし、リン
ク情報としては、もとの音声データとの対応を示す情報
(例えば時間あるいはサンプル点あるいはデータのアド
レスなど)を利用してもよいし、中間結果としての単語
列や構文木をリンク情報として間接的に入力音声データ
との対応をとってもよい。
【0023】入力する時系列データとして、マルチメデ
ィアデータのように複数の種類のデータを扱う場合に
は、キーデータがどの時系列データに対応するかを示す
データ識別子をリンク情報に含めることにより、その対
応がより明確になる。
【0024】検索は、認識・理解システムが出力するこ
とのできる上述のキーデータが指定されると、それに一
致するキーデータをもつ構造情報を検索し、その構造情
報に記されたリンク情報からもとの時系列データにアク
セスすることによって、実現する。
【0025】具体的に本発明の一実施例を図面をもとに
説明する。時系列データの入力と格納までの手順を、図
1の本発明の時系列データ記録再生装置の一実施例のブ
ロック図と図2のフローチャートをもとに簡単に説明す
る。
【0026】時系列データは、ステップ「時系列データ
入力」200にあるように、マイクやカメラなどの時系
列データ入力手段1から入力される。時系列データ入力
手段1は、ステップ「時系列データを時系列データ格納
手段に送る」201にあるように、入力された時系列デ
ータを時系列データ格納手段2に送る。
【0027】時系列データ格納手段2は、ステップ「時
系列データを時系列データ格納手段に格納する」20
にあるように、送られた時系列データを格納する。同様
に、時系列データ入力手段1は、ステップ「時系列デー
タを構造情報解析手段に送る」203にあるように、入
力された時系列データを構造解析手段3に送る。
【0028】構造解析手段3は、ステップ「構造情報を
生成する」204にあるように、送られた時系列データ
の認識処理を行いキーデータを検出し、少なくとも検出
した前記キーデータと、前記キーデータの時刻情報と、
前記時系列データと前記キーデータをリンクさせる情報
で構成される構造情報を生成する。
【0029】構造解析手段3で生成された時系列データ
の構造情報は、ステップ「構造情報を構造情報格納手段
に格納する」205にあるように、構造情報格納手段4
に格納される。ここでいうキーデータとは、入力された
時系列データから取り出した、音声認識などのパターン
認識処理結果など、時系列データの一部を意味づけする
ことのできる、利用者にとって意味のある情報である。
【0030】時系列データ格納手段2に格納された時系
列データおよび構造情報格納手段4に格納された時系列
データの意味のある情報を利用者の要求に従って出力す
る手順を図3のフローチャートをもとに簡単に説明す
る。
【0031】利用者は、ステップ「検索命令入力」30
0にあるように、検索命令入力手段5に検索キーとして
入力するキーデータを入力する。検索命令手段5は、ス
テップ「検索命令を検索手段に送る」301にあるよう
に、検索の命令を検索手段6に送る。
【0032】検索手段6は、ステップ「検索を行う」3
02にあるように、検索命令手段5に入力された検索の
命令に従い、キーデータに対応する構造情報を構造情報
格納手段4からすべて検索し、検索された構造情報のリ
ンクさせる情報をもとに時系列データを時系列データ格
納手段2から検索する。
【0033】検索手段6は、同様に検索された構造情報
をもとにキーワードの組み合わせ等の意味のある情報を
構造情報格納手段4から検索する。検索手段6は、ステ
ップ「検索したデータを情報出力手段におくる」303
にあるように、検索した時系列データや意味のある情報
を、情報出力手段7に送る。
【0034】情報出力手段7は、ステップ「検索したデ
ータを出力する」304にあるように、検索した時系列
データや意味のある情報を、視覚的あるいは聴覚的に利
用者に提示する。
【0035】情報出力手段7は、時系列データを利用者
に提示する場合、時系列データや意味のある部分を他意
味のある部分と区別して出力することができるものとす
る。キーデータ入力手段8は、マウスやペン、タッチパ
ネルなどポインティングデバイスあるいはキーボードな
どの入力装置である。
【0036】キーデータ入力手段8は、利用者からのキ
ーデータの修正、追加などを受け付ける。これらの入力
装置を利用する場合は、情報出力手段7でキーデータや
構造情報を画面表示し、利用者からの入力があればキー
データに対応する構造情報を変更する。
【0037】このようにして、構造解析手段3が検出し
たキーデータの修正だけでなく、利用者が構造情報を変
更・追加することができる。このような、利用者による
キーデータの入力は、情報出力手段7により構造情報格
納手段4および時系列データ格納手段2に記録されてい
る内容を確認しながら行い、利用者の要求に合った構造
情報に改良することができ、構造情報の質を高めること
ができる。
【0038】以下具体的に、時系列データとして音声デ
ータを入出力する場合について説明する。音声データ
は、マイクなどの入力装置を持つ時系列データ入力手段
1によって入力される。
【0039】時系列データ入力手段1は、図4(a)の
ように、入力された音声データにデータ種別、時刻情報
といった識別データを付加する。データ種別とは、入力
装置、チャネル番号、メディアの種類、標本化周波数な
どデータ離散化情報のように入力データを再生するため
の情報である。この情報を以下、付加時系列データとよ
ぶ。
【0040】各入力装置は同時に複数利用でき、例え
ば、複数のマイクを利用したマルチチャネル入力も可能
である。この場合、データ種別の一情報として、どのチ
ャネルから入力されたデータであるかを示すチャネル番
号も含まれることになる。
【0041】また、入力開始時刻は、システムに音声デ
ータが入力された時刻を指すが、もともと入力されたマ
ルチメディアデータの中に時刻情報が含まれている場合
は、それをそのまま利用することも可能である。
【0042】図4(b)は、時系列データ入力手段1
が、音声データに「データがマイクで入力され、マイク
のチャネルが2番、データのメディアは音声、標本化周
波数が12kHz、量子化情報が16bit、そして、
音声の開始時刻がtsで終了時刻がteある」という情
報を付加時系列データを表の形式で図示したものであ
る。
【0043】時系列データ入力手段1は、識別データを
付加した図4の付加時系列データを時系列データ格納手
段2と構造解析手段3に送る。時系列データ格納手段2
は、送られた付加時系列データと、時系列データのID
と時系列データ格納手段2のアドレスを対応づけた付加
時系列データの格納位置を示す情報を格納する。図5
(a)は、時系列データID「SP-129」という時系列デ
ータが、時系列データ格納手段2の「××××」という
アドレスの記憶領域に格納されていることを示してい
る。図5(b)は、「××××」というアドレスに時系
列データID「SP-129」の付加時系列データを格納して
いる表の形式で図示したものである。
【0044】構造解析手段3は、付加時系列データの認
識処理を行いキーデータを検出し、少なくとも検出した
前記キーデータと、前記キーデータの時刻情報と、前記
時系列データと前記キーデータをリンクさせる情報で構
成される構造情報を作成する。構造情報は構造情報の種
類を示す構造情報名あるいは構造情報IDのほかに、音
声データのどの部分から得たかを示す時刻情報が必ず含
まれるよう構成されている。この時刻情報は、付加時系
列データの開始時刻と標本化周波数などデータの離散化
情報をもとに得ることができる。この構造情報を図6の
ように表示することにする。
【0045】図6の構造情報は、構造情報IDが「WD-
5」、もととなる時系列データのID「SP-129」、構造
情報名が「単語検出結果」、時刻情報として開始時刻
「t1」、終了時刻「t2」、および検出されたキーデータ
であるキーワードから構成されていることを示してい
る。認識処理によるキーワードの検出についてはのちに
詳しく述べる。
【0046】構造解析手段3は、生成した構造情報を構
造情報格納手段4に送り、構造情報格納手段4は、送ら
れた構造情報と、構造情報のIDと構造情報格納手段内
のアドレスを対応づけた構造情報の格納位置を示す情報
を格納する。図7(a)は、構造情報ID「WD-5」とい
う構造情報が、構造情報格納手段4の「○○○○」とい
うアドレスの記憶領域に格納されていることを示してい
る。図7(b)は、「○○○○」というアドレスに構造
情報ID「WD-5」の構造情報を格納している表の形式で
図示したものである。
【0047】以下、構造解析手段3での音声データの認
識処理を具体的に説明する。ここでは構造情報として、
音声分析処理、単語検出処理、構文意味解析処理、対話
構造理解処理などを通じて得られる音声区間、発声単
語、発話意味内容、発話環境情報といったキーデータの
検出を例にとって説明する。
【0048】ここで構造解析手段3は、図8にあるよう
に、音声区間検出部81、音響分析部82、単語検出部
83、構文意味解析部84、環境情報抽出部85から構
成されるものとする。音声区間検出部81は、音声デー
タ中の音声が存在する区間をキーデータとして検出す
る。これは音声信号のパワーを調べ、その値が一定時間
にある閾値を越えたときの始点を音声区間の始端とし、
また、パワー値が一定時間にある閾値を越えないとき、
その始点を音声区間の終端とすることで実現する。分か
りやすくするため、図9に時間変化と音声パワーの関係
を表したグラフで示すが、この図9の音声の開始時刻t
1(始端)、終了時刻t2(終端)を検出することにな
る。これは音声信号のパワー値が一定時間(dt1)で
閾値を越えたときの始点を音声区間の始端とし、また、
パワー値が一定時間(dt2)で閾値を越えないとき、
その始点を音声区間の終端とすることで実現できる。こ
のパワーの閾値、持続時間の長さは、始端検出と終端検
出とで異なる値を設定すれば、検出精度を高めることが
できる。この音声区間の検出についての構造情報は、こ
こでは図10のように表し、構造情報ID「VP−01
3」、もととなる時系列データのID「SP−12
9」、構造情報名「音声区間」、時刻情報として開始時
刻「t1」、終了時刻「t2」、キーデータとして音声
区間「t1からt2」を持つ。ここでは、キーデータが
音声の区間を時間で表したものであるため、時刻情報と
同じようなデータであるが、構造情報ではキーデータと
時刻情報を明確に区別する必要がある。
【0049】音響分析部82は、音声データの音響分析
を行う。ここで、FFT(高速フーリエ変換)等の方法
によるスペクトル分析、周波数領域での平滑化、対数変
換を行い、例えば、16チャンネルのバンドパスフィル
タより8ms間隔で音響分析結果、つまり、周波数スペ
クトルのパターンを得る。
【0050】この音響分析結果つまり、周波数スペクト
ルのパターンを単語検出部83に送り、単語検出部83
で単語検出処理が行われる。単語検出部83は、例えば
文献(金沢、坪井、竹林“不要語を含む連続音声中から
の単語検出”電子情報通信学会技術研究報告、SP91-22,
pp.33-39(1991.6))に開示された方法で単語検出の処理
を行うことができる。これにより、入力音声の周波数ス
ペクトル系列のパターンと検出対象となる単語の周波数
スペクトル系列の標準パターンとの照合を行い、スコア
の高い単語を単語検出結果情報として得ることができ
る。
【0051】単語検出部83で得られた単語検出結果情
報は、単語とその始端、終端、標準パターンとの類似度
などのキーデータとを合わせて扱うことにより、時間情
報、単語名、登録されている単語との尤度などのキーデ
ータを検出された単語に組み合わせて構造情報として扱
うことができる。図11(a)に示すように、ここで単
語検出の構造情報は、構造情報ID「WD-7」、もととな
る時系列データのID「SP-129」、構造情報名「単語検
出結果」、時刻情報として開始時刻「t1」、終了時刻
「t2」、単語名(キーワード)「はい」、尤度「0.82」
で構成される。
【0052】これらの検出対象となる単語は、利用者が
あらかじめ決めておき、必要に応じて追加・削除など変
更することも可能である。上述の単語検出部83の処理
の例は、検出単語ごとに周波数スペクトル系列の標準パ
ターンを持つものとして説明したが、もちろん、音韻単
位で周波数スペクトル系列の標準パターンを持つことも
可能である。また、単語単位の照合と音韻単位の照合を
併用することもできる。
【0053】ところで、単語検出部83が検出した単語
検出結果情報は、必ずしもそのまま単語認識の最終結果
となるわけではない。単語検出結果情報として得たキー
ワードの中には、発話の中に含まれていた検出すべき正
しい単語のほかに、実際には発話に含まれていないが周
波数スペクトル系列が類似しているために誤検出された
単語も含まれている可能性がある。例えば、「はい」と
いう単語と「大」(“だい”と読む場合)という単語は
類似しているため誤検出される可能性がある。ここで、
「大」がキーデータとして検出され、構造情報を生成し
た場合、この構造情報は図11(b)のように構造情報
ID「WD-8」、もととなる時系列データのID「SP-12
9」、構造情報名「単語検出結果」、時刻情報として開
始時刻「t1」、終了時刻「t2」、単語名(キーワード)
「大」、尤度「0.75」で構成される。
【0054】構文意味解析部84は、単語検出部83で
の検出結果として得られた単語に対し、可能なあらゆる
単語系列(時間的に重ならない単語の組合せ)について
構文意味解析を行い、受理可能な単語系列によって生ま
れる発話の意味内容を意味表現候補とする。
【0055】また、ここで得られる意味表現候補は、必
ずしも1つにしぼられず、受理可能な単語系列の候補が
複数存在することがあり得る。これらの複数の候補の中
から、それまでの発話の意味内容の履歴を考慮して適切
な意味表現を選択することにより、最終的に発話の意味
を決定する。したがって、単語認識の最終結果は、ここ
で選択された意味表現を構成する単語系列を指す。これ
らの発話の意味を決定する処理は、文献(坪井、橋本、
竹林“キーワードスポッティングに基づく連続音声理
解”電子情報通信学会技術研究報告、SP91-95,pp.33-40
(1991.12) )、あるいは、文献(貞本、新地、坪井、竹
林“不特定話者音声対話システムTOSBURGの対話
処理”日本音響学会講演論文集、1-P-17,pp.137-138(19
92.3) )に開示された方法により、行うことができる。
【0056】これらは、予想される単語の並びから意味
表現を得る方法であり、想定される単語の並びとその意
味表現から予め決めておくことができる。また、利用者
が必要に応じて追加・削除など変更することも可能であ
る。追加・削除についてはのちに詳しく説明する。
【0057】上述した、意味表現候補と意味表現候補を
構成する単語系列は、発話の意味内容の候補に関するキ
ーデータとして扱うことができる。このキーデータから
構造情報を作成したものを図12で示すが、図12の構
造情報は、構造情報ID「SR-5」、もととなる時系列デ
ータのID「SP-129」、構造情報名「発話意味」、開始
時刻「t1」、終了時刻「t2」、発話の意味「肯定」、構
成単語の総数が2つで、「はい」「そうです」という単
語、意味表現として選択されたか否かを表している。ま
た、単語系列についての情報は、単語検出結果として得
た構造情報を指すポインタを持つことによって、単語検
出結果に関する構造情報とリンクできる。また同様に、
最終的に選択した意味表現とそれを構成する単語系列も
発話の意味内容に関する構造情報として扱うことができ
る。
【0058】環境情報抽出部85は、音声データを取り
込んだ際の周囲の環境に関するキーデータを抽出し、構
造情報を作成する。環境情報抽出部85を加えることに
より、さらに詳細な構造情報を得ることができることに
なる。
【0059】例えば、複数の話者の発声した音声を入力
データとして扱う場合について図13をもとに説明す
る。図13(a)は、話者Aのマイクから入力した音声
の音声パワーを表し、図13(b)は、話者Bのマイク
から入力した音声パワーをグラフで表したものであるも
のとする。
【0060】また、出席者ごとにマイクを用意しなくて
も、マイクアレイ(指向性のあるマイク)を構成すれば
特定の方向の利得を大きく取ることができ、話者のいる
方向からの音声を強めて取り出すことができ、話者を特
定することも可能である。したがって、これらの方法を
利用し、どの話者による発声かというキーデータが抽出
でき、これを構造情報に利用できる。
【0061】全ての話者の音声区間を比較することによ
って、どの話者も発声していない時間を沈黙として検出
することができる。また、一方、これらの方法を利用す
れば、逆に、話者以外の周囲環境音の成分を取り出すこ
とも可能である。すなわち、音声区間検出部81により
検出された音声データの音声区間以外の部分を周囲環境
音として扱うことができる。話者Aのマイクから入力さ
れた周囲環境音を表したグラフを図13(c)に表し、
話者Bのマイクから入力された周囲環境音を表したグラ
フを図13(d)に表す。ここでは、図13(a)と図
13(b)の音声区間でない部分が周囲環境音になる。
【0062】この周囲環境音の中には、音声以外の周囲
環境の雑音のほか、パワーが低かったり持続時間が短い
ために音声区間として扱われなかった音声が含まれる。
このため、周囲環境音のパワーの大きさを調べることに
より、ざわめきなど、周囲環境の静かさの程度を構造情
報に利用できる。この周囲環境を表す情報は、意味のあ
るキーデータとは違うので、ここでは環境情報と定義す
る。
【0063】この周囲環境音の中には、音声以外の周囲
環境の雑音のほか、パワーが低かったり持続時間が短い
ために音声区間として扱われなかった音声が含まれる。
このため、周囲環境音のパワーの大きさを調べることに
より、ざわめきなど、周囲環境の静かさの程度を環境情
報として構造情報に利用できる。
【0064】周囲環境音として笑い声や拍手など、その
場の雰囲気を表わす特徴的な音を認識することにより、
使用時の雰囲気を環境情報として構造情報に利用でき
る。音声区間検出部81が出力する音声区間の始端、終
端のキーデータを組み合わせることにより、1人の話者
が発話を終了してから、別の話者が発話を開始するまで
の時間が短いほど活発な対話を行なっているなどの判断
が可能であり、これを環境情報として構造情報に利用で
きる。前出の図13では、話者Aが話し終わったt2から
話者Bが話し始めたt3までの時間が短いほど活発な対
話を行なっていることになる。
【0065】また、残響特性の標準パターンとする辞書
を作成することにより、周囲環境音から場所の推定がで
きる。特に、本装置を利用する場所がある程度限られる
場合、自分の部屋、会議室、廊下、屋外といった使用場
所ごとの残響特性を集めることにより、残響特性の標準
パターンとする辞書を作成することができる。図14の
ように試験音発生部140が電源投入時などに出力する
システムのビープ音を試験信号として発生させ、マイク
等の音声入力装置から使用場所推定部141に入力させ
る。使用場所推定部141は、残響特性辞書142に格
納されている使用場所のデータと照合する。
【0066】このようにして推定した利用場所を環境情
報として利用し、どこの場所で入力したかを示す情報が
付加され、構造情報として構造情報格納部4に格納され
る。このほか、対話の中でやりとりされた発話の意味内
容を対話履歴として保持しておき、新たに入力された発
話の意味内容と対話履歴から現在の対話の状況を知るこ
とができる。これをキーデータとして構造情報に利用す
ることも可能である。
【0067】なお、本実施例では、構造解析される時系
列データは、時系列データ入力手段1を介して入力され
るとしているが、これをオンラインで解析するだけでな
く、図15に示すように(図1と同一の符号を付す)、
時系列データ格納手段2に既に格納されている時系列デ
ータを構造解析手段3に送ることができるように構成
し、既に格納されている時系列データを解析し新しいキ
ーデータを生成することも可能である。
【0068】新しいキーデータを作成することよって、
すでに解析を行なった時系列データに対し、再び認識処
理をやり直すことができる。たとえば、データ入力時に
認識させた単語と異なる語を認識語彙として設定して、
再び構造解析することもできる。
【0069】また、単語認識だけでなく意味表現の場合
でも、予想していた場面での単語の並びや意味表現の候
補の範囲をこえた際には、単語の並びや意味表現を利用
者が正しく設定して、改めて構造解析することによっ
て、適切な構造情報を生成することができる。
【0070】つぎに、これらのキーデータを利用して得
られるキーデータの例をいくつか示す。簡単のため、話
者ごとにマイクを用意するなどの方法により、すでに話
者ごとに音声データが分離されているとする。
【0071】この話者ごとの音声データを分析して、音
声区間を示すキーデータから構造情報を生成し、構造情
報格納手段4に格納したとものする。このキーデータ
は、ある話者がいつ発声したかを示す情報であり、どの
話者がいつ、どれくらい長く発声したか、どれくらい頻
繁に発声したかがわかる。また、どれくらい頻繁に話者
が交替したか、一定時間にどれだけ多くの話者が発声し
たか、1人の話者が発話を終了してから別の話者が発話
を開始するまでの時間差の大きさなどによって、対話や
議論がいかに白熱しているかを知ることができる。
【0072】また、同じように音声データを分析して、
単語音声認識の認識結果を示すキーデータから構造情報
を生成し、構造情報格納手段4に格納したものとする。
例えば会議出席者の音声データを入力した場合、その会
議におけるそれぞれの話題ごとに頻出する単語を認識対
象語のキーデータとしておけば、いつどういう話題につ
いて議論していたかをおよその内容についてその単語か
ら知ることができる。またある人が発言した特定の単語
を認識対象語のキーデータとすれば、重要な発言のあっ
た部分を検索して取り出すことができる。
【0073】前述したように、既に時系列データ格納部
2に記録してある音声データを分析することもできるの
で、認識対象語は音声データを取り込んだ後に設定し直
すことも可能であり、事前に想定していなかった重要な
発言の検索を行なうこともできる。
【0074】さらに、音声データの分析から、発話の意
味表現を示すキーデータから構造情報を生成し、構造情
報格納手段4に格納したものとする。これにより、いつ
どういう話題について議論していたかをおよその内容に
ついてその意味表現のキーデータから知ることができ
る。また、誰がどういう内容について発言したか、誰と
誰の発言内容が近かったかについて知ることができる。
また、話題の推移はどうだったかを図示すれば議論の流
れを整理して図解・整理することができる。
【0075】時系列データが複数格納されている場合、
これらにまたがって共通する構造情報があれば、これを
リンクして検索することも可能である。たとえば、複数
の音声データに共通する話者がいる場合、同じ話者をピ
ックアップすることができる。
【0076】複数の会議の音声データが入力されている
場合、それらの話者を示す構造情報から、ある会議に出
席していた人が、別の会議で発言していた内容を検索す
ることも可能である。
【0077】また、複数の音声データに共通する単語が
ある場合、ある会議で主要な話題となった単語につい
て、以前の会議ではどう使われていたか、単語を示す構
造情報を頼りに検索することができる。
【0078】ここで、誰が何を発言したか、話題の推移
と発言内容の近さを画面表示する例を図16に示す。図
16(a)は、会議参加者A、B、C、D、Eの5人で
行われた会議で、議決をとったとき状況を図示したもの
である。ここでは、議決をとったときの音声データを構
造解析した結果、誰が何を言ったかという発話意味を表
し、Aが賛成、Bが反対、Cが反対、Dが条件付きの賛
成、Eが賛成という主旨の意見を述べたことを示してい
る。
【0079】図16(b)は、会議における時間の経過
と、発言の内容の近さを図示したものである。ここで
は、はじめDの案1とBの案2があり、発言内容が離れ
ていて、また、他の発言者もなく会議が停滞していた
が、後にAが案3を出してから議論が活発になり、Dも
Aの意見に近くなっていったことを示している。
【0080】構造情報どうしは、構造情報名あるいは構
造情報ID、および時刻情報をもとに互いに関係づけら
れ、新たな構造情報を生成する。以下、検索、出力、そ
して、利用者によるキーデータの入力について簡単に説
明する。
【0081】前述したように、検索時はキーデータを検
索キーとして利用する。利用者は検索命令入力手段5に
キーデータを入力する。ここでは、「はい」という単語
をキーデータとして入力する。検索命令入力手段5に入
力されたキーデータを検索手段6に送り、検索手段6は
構造情報格納手段4から「はい」というキーデータをも
つ構造情報をすべて検索する。検索手段6は検索した構
造情報を情報出力手段7に送り、情報出力手段7は、検
索された構造情報を提示し、利用者はこれを参照して、
さらに検索したい構造情報のキーデータを検索命令入力
手段5を利用して入力する。
【0082】検索命令入力手段5は、さらにキーデータ
で構成される検索キーの入力を受け付け、検索命令を検
索手段6に送る。例えば、時刻t1からt2に肯定の発言を
したときの時系列データを再生する場合、開始時刻「t
1」、終了時刻「t2」、発話意味「肯定」というキーデ
ータを利用者は検索命令入力手段5に入力する。
【0083】検索手段6は、構造情報格納手段4から利
用者の入力したキーデータに一致する構造情報を検索す
る。ここでは、図12に示した構造情報「SR-5」が検索
され、すでに「はい」というキーデータが入力されてい
るので、「はい」というキーデータをもつ構造情報と構
造情報「SR-5」から「はい」というキーデータをもつ構
造情報「WD-7」という構造情報が検索される。
【0084】意味のある情報のみを出力させる場合、検
索された構造情報を情報出力手段7に送り、情報出力手
段7は送られた構造情報の一部である意味のある情報を
出力する。
【0085】音声データそのものを出力させる場合、検
索手段6は、すでに検索した構造情報「WD-7」にあるも
との音声データのIDから、時系列データ格納手段2に
格納されている音声データにもアクセスする。
【0086】情報出力手段7は、スピーカやCRTのよ
うなディスプレイ装置などで構成され、検索手段6が検
索したもととなった音声データを再生する。時系列デー
タの出力は、入力データのすべてもしくは一部を再生す
ることに相当し、構造情報の出力は、視覚的表示を用い
時系列データを短時間で表現したり、メタファとしての
音を聴覚的に出力する。たとえば、単語認識で得た構造
情報の表示としては、認識した単語をテキストやアイコ
ンを利用して表示したり、発話理解により得た構造情報
の表示では、キーワードのテキスト表示による意味内容
を表現することが可能である。会議記録の表示では、話
者の席順や発言時刻や発言の意味内容に応じてアイコン
表示と意味内容のテキスト表示を行い、どの発言者がど
ういう意味内容の発言をしてきたか、誰のどういう意味
内容の発言に対して他の者がどういう意味内容の発言を
したかという記録を表示する。また、前述の図16
(b)のように「議論が活発」、「停滞」、であったな
どの情報を色調や濃淡などの視覚的な表現で示すことに
より効果的な出力ができる。
【0087】キーデータ入力手段8は、マウスやペン、
タッチパネルなどポインティングデバイスあるいはキー
ボードなどの入力装置で構成される。キーデータ入力手
段8は、これらの入力装置によって利用者からのキーデ
ータの修正、追加などを受け付ける。これらの入力装置
を利用する場合は、情報出力手段7にキーデータや構造
情報を画面に表示し、修正・追加の対象となるキーデー
タをカーソルの場所で示し、利用者からの入力がキーワ
ード入力手段8にあれば対応する構造情報を変更する。
【0088】このように利用者がキーデータを入力する
ことにより、構造解析手段3が自動的に生成したキーデ
ータや構造情報の修正だけでなく、利用者がキーデータ
や構造情報を追加することができる。
【0089】利用者によるキーデータの入力は、情報出
力手段7により構造情報格納手段4および時系列データ
格納手段2に格納されている内容を確認しながら行い、
利用者の要求に合った構造情報に改良することができ、
構造情報の質を高めることができる。
【0090】利用者が入力するキーデータの1つとし
て、音声データや構造情報に関する利用者の評価を含め
ることもできる。例えば、各話者の発言内容に対する評
価を☆、○、△、×などのランクに分けて評価し、これ
をキーデータとして構造情報に付加したとする。極めて
重要と思われる発話には☆を、重要と思われる内容には
○を、重要ではないが話題進行に関係する発話には△
を、特に話題進行にも関係しない発話には×を付けたと
する。あとでポイントとなる部分を調べるときには☆の
部分を検索し、要約する場合には○の部分を検索し、時
間の余裕があるときに話題の流れを追う場合には△の部
分を検索することができる。
【0091】次に、認識・理解システムの評価システム
(認識・理解評価システムと呼ぶことにする)に適用し
た例について説明する。一般に認識・理解システムの性
能向上のためには、システムを実際に利用して行った実
データを多く収集する必要があるが、収集した大量のデ
ータを管理する手間と労力が要求される。本実施例のよ
うに、全ての認識・理解結果を各々キーデータとし、そ
れを得るもとになった時系列データとのリンク情報を保
持していれば、各々の認識・理解結果を得た時系列デー
タだけを選択的に出力することができる。
【0092】この場合、入力時系列データは認識・理解
システムへの入力時系列データおよび認識・理解結果の
データである。上述の例のように、認識・理解システム
内で複数の処理段階を経る場合、各段階における中間的
な処理結果も含めて、時系列データとして扱うこともで
きる。
【0093】評価システムでは、認識・理解性能を評価
するための評価規模、すなわち、(A)望ましい認識・
理解結果(途中結果)あるいは正しい認識・理解結果
(途中結果)がキーデータに相当する。あるいは、
(B)認識・理解システムの認識・理解結果(途中結
果)と望ましいあるいは正しい認識・理解結果(途中結
果)との間の比較の結果をキーデータとしてもよい。あ
るいは、キーデータを、(C)現状の認識・理解システ
ムでは認識・理解対象としていないものの、今後は対象
とすべき時系列データに対するラベルとすることもでき
る。
【0094】リンク情報は、(a)認識・理解システム
の処理結果との対応を示す情報としてもよいし、(b)
認識・理解システムへの入力時系列データとの対応を示
す情報(例えば、時間、あるいはサンプル点、あるいは
データのアドレスなど)としてもよい。
【0095】これらの情報はユーザが入力することがで
きる。キーデータを望ましい認識結果(A)として、リ
ンク情報を(b)として検索すれば、ある認識対象に対
する入力データの実データを収集でき、これを学習用デ
ータとして使ってより精度の高い認識辞書を得ることが
できる。
【0096】キーデータ(B)を集計すれば、認識・理
解性能を得ることができ、リンク情報をたどれば、ある
認識対象に対する入力時系列データを正誤の判定結果と
ともに収集できる。
【0097】キーデータ(C)を使い検索すれば現状シ
ステムで扱えない、実データだけを収集できる。以下、
本発明の時系列データ記録システムを、音声対話システ
ムとその利用者との間で行なわれた対話を評価する、音
声対話評価システムに応用する例を図17をもとに説明
する。
【0098】図17にあるように、音声対話評価システ
ム170は、利用者の発声する音声を認識理解し音声応
答や画面表示による応答を利用者に返すシステムである
音声対話システム171と、音声対話システム171の
認識理解結果の精度、対話状況を考慮した対話音声デー
タベース作成などの機能を持つ対話評価システム172
で構成される。つまりここでは、音声対話システム17
1は、構造解析手段3のように音声データを認識して構
造情報を出力し、対話評価システム172は、本発明の
時系列データ記録再生装置で、音声対話システム171
が入力した構造情報から音声対話システム171の音声
認識結果の評価を行うものである。
【0099】以下、対話評価システム172の構成は図
1に示した構成と同様のものとする。また、図1と同一
の符号で説明する。音声対話システム171は、対話評
価システム172(時系列データ記録再生装置)の時系
列データ入力手段1に対話音声のPCMデータ、および
認識理解結果や応答内容などの対話の情報が含まれる付
加時系列データやキーデータ、構造情報を送る。
【0100】音声対話システム171が、対話評価シス
テム172の時系列データ入力部1に送る認識理解結果
や応答内容などの対話の情報のファイル出力例を図18
に示す。この音声対話システムのファイル出力には、何
回目の発話であるかを示す発話番号、音声対話システム
とその利用者の発話の音声区間、単語検出結果、構文・
意味解析によって得られた複数の意味表現の候補、これ
ら複数の候補の中から、対話の履歴を考慮して選択した
意味表現(理解結果)、応答内容などが含まれている。
対話評価システム172は、この入力データを音声デー
タと構造情報に分離する。
【0101】音声対話システム171の認識理解結果の
精度を調べるためには、単語検出・認識結果や発話の意
味の理解結果の正解のキーデータを人間が与えなければ
ならないが、これは対話評価システム172のキーデー
タ入力手段8を用いて利用者が追加入力する。
【0102】図19は、ハンバーガーショップでの注文
を受け付ける音声対話システムを一例として、キーデー
タ入力手段8と情報出力手段7の一部をウインドウシス
テムのライブラリであるウインドウインタフェイスを利
用して実現する例であり、対話評価システムの利用者が
画面に表示された認識単語のアイコンをマウスやペンで
クリックすることにより、正解の単語のテキストを与え
ることができる。この例では、認識単語だけでなく、1
回の発話が終了したことを示す区切り用のアイコンも用
意している。例えば、対話評価システム172のキーデ
ータ入力手段8をウインドウインタフェイスで構成する
と、正解の認識単語のテキストは容易に入力、修正する
ことができる。ここで、オレンジジュースの小さいサイ
ズのものを1つ注文するという意味を入力する場合、ペ
ンなどで図19に示した画面の「オレンジジュース」を
示すアイコン190と、「小」を示すアイコン191
と、「1つ」を示すアイコン192と「ください」を示
すアイコン193と「発話終了」を示すアイコン194
を触れて入力する。
【0103】ところで、図19のウインドウインタフェ
イスで入力した正解の認識単語のテキストには、単語の
始端、終端などの時間情報が含まれていない。時間情報
を得るには、対話音声データを情報出力手段7から認識
単語の存在する区間を部分的に再生出力して試聴し、確
認しながら対話評価システム172の利用者が決定す
る。認識単語の存在する区間は、対話評価システム17
2の利用者が入力して決定するが、音声対話システム1
71が認識した結果として得た認識単語の始端、終端を
初期値とすれば、対話評価システム172の利用者の入
力の負担は大幅に軽減される。
【0104】発話の意味表現の正解を入力する場合も、
ウインドウインタフェイスを用意すれば実現できる。ま
た、既に正しい単語の並びが得られていれば、その意味
解析を行うことによって発話内容の意味表現を得ること
ができる。この意味表現を修正することにより、評価シ
ステムの利用者が直接入力する必要のあるデータは軽減
される。
【0105】このようにして利用者が正解のキーデータ
を入力して得られた構造情報は、音声対話システム17
1の出力するキーデータや構造情報、つまり、対話評価
システム172に入力されたキーデータや構造情報と照
合し、音声対話システム171の単語検出性能を示す構
造情報を構成する。
【0106】例えば、利用者が正解の単語のキーデータ
「はい」をキーデータ入力手段8で入力し、図20
(a)に表した正解の単語を示す構造情報を作成する。
構造解析手段3は、図20(a)に表した正解の単語を
示す構造情報「WC-5」の時刻情報、つまり、開始時刻
「t1」、終了時刻「t2」をもとに、図11に示した単語
検出結果を示す構造情報と照合し、正解の単語を検出し
ているか、検出されていない単語があるか(脱落)、正
解にない単語を検出しているか(挿入)について調べ、
それぞれの結果から単語検出性能を示す構造情報を生成
する。
【0107】ここで、図11(a)の構造情報「WD-7」
がある場合、単語検出結果を示す構造情報「WD-7」のポ
インタあるいは構造情報IDが含まれ、正解の単語を示
す構造情報「WC-5」の情報と合わせ、図20(b)に示
すような、音声対話システム171の単語検出性能を示
す構造情報を作成ことができる。
【0108】さらに、単語検出性能を示す構造情報と単
語認識結果を示す構造情報と照合し、単語認識性能を示
す構造情報を生成する。ここで、前述したように、単語
認識結果を示す構造情報は、単語検出結果を示す構造情
報とリンクする情報を持っているので、その単語が正解
かあるいは正解でないかが判定できる。したがって、単
語認識結果に含まれる単語列のそれぞれが正しいか否か
が判断できる。このようにして、音声対話システム17
1の単語認識性能を評価することができる。
【0109】また、正解の発話の意味表現を示す構造情
報は、意味表現候補や選択した意味表現を示す構造情報
と照合され、選択すべき意味表現候補を正しく選択して
いるか、意味表現候補の中に選択すべきものがない場合
はあるかについての情報が含まれた理解性能を示す構造
情報を生成する。
【0110】上述した構造情報は、以下に述べるよう
に、音声対話システム171の性能向上に利用すること
ができる。例えば、単語検出性能の向上について述べ
る。対話評価システム172の利用者の入力した正解の
単語を示す構造情報から、実対話中の単語音声データを
リストアップすることができる。これにより、ある単語
だけの音声データを集めた音声データベースを得ること
ができる。この音声データを用いて単語検出用の辞書の
再学習を行えば、単語認識性能の向上が図れる。さら
に、単語検出性能を示す構造情報を用いれば、単語ごと
の検出精度が得られ、特に検出性能の低い単語から再学
習を行えば、性能向上を迅速に行うことができる。
【0111】対話評価システム172の情報出力手段7
における、構造情報を話題の移り変わりと対話の時間的
な経過と関連付けて表示させる出力例を図21をもとに
説明する。ここでは、図18のファイル出力例を表示し
たものである。
【0112】会話音声波形表示部210は、会話の音声
の音声波形である。これは音声の時系列データを波形で
再現したものである。テキスト表示部211は、時間情
報付きの時系列データをテキストで表現したものを出力
する。
【0113】単語音声波形表示部212は、会話内容表
示部211で点滅している部分の音声波形を出力してい
る。単語検出結果表示部213は、単語音声波形表示部
212で表示した音声波形から検出される単語を表示す
る。ここでは、波形が似ている単語、音声区間が似てい
る単語などが検出される。
【0114】単語認識結果表示部214は、検出された
単語の中から、正しいと認識した単語を表示する。ここ
では、4.74秒から5.12秒に発話された単語が「ポテト」
と認識されたことを示している。
【0115】構文意味候補表示部215は、検出された
単語の中や認識された単語の中から文章の意味となる候
補を表示する。ここでは、検出した単語から注文を意味
する5つの候補が出力されているが、認識された単語か
ら1番目の候補が選択されている。
【0116】構文意味候補情報表示部216は、構文意
味候補表示部215で選択した候補から「ハンバーガー
2つ」「ポテトの大1つ」「コーラ3つ」を注文すると
いう意味を表示する。
【0117】構文意味訂正情報表示部217は、構文意
味候補情報表示部216に表示された意味候補情報が誤
りを含んでいる場合に訂正した意味候補情報を表示す
る。以上のように、対話履歴に関する構造情報を利用
し、話題の移り変わりと対話の時間的な経過と関連付け
て表示させることにより、対話が滞っているか、円滑に
進んでいるかなどを視覚的に表示できる。
【0118】以上のような「音声対話評価システム」に
おける評価用対話データ(時系列データ)の扱いについ
て以下にまとめる。ここでの時系列データは、 ・対話時の音声データ(少なくともシステム応答とユー
ザ発話の2ch)である。
【0119】そして、時系列データとしても構造情報と
しても扱うことができるものとして例えば図18に示す
システムの認識結果のように、 ・システム応答,ユーザの発話の開始・終了時刻(一般
には複数個ある) ・ユーザ発話から取り出した(単語)音声認識結果(単
語の始端時刻・終端時刻も含む) ・ユーザの(一発話に対する)発話意味理解結果 ・システムの内部状態 ・システムの応答内容 (これらは各々、「音声対話システム」の音声区間検出
部、音声認識部(単語検出部)、音声理解部、対話管理
部、応答生成部の処理結果にほぼ相当する。)およびそ
の他に「望ましい処理として」システム開発者(評価
者)が入力する「正解」がある。
【0120】そして、評価のため「音声対話システム」
とユーザの間で音声を使った(画面表示も利用)対話が
行われる。音声対話システムへユーザの発話が入力され
ると、この音声データの分析・認識理解、対話処理、応
答生成により、上記の音声データ,発話の開始・終了時
刻、音声認識結果、発話意味理解結果、内部状態、応答
内容が各々決定・生成される。
【0121】「音声対話評価システム」は、システム性
能向上と、ユーザインタフェース改良のため、上記の各
処理データ、処理結果を記録し、評価者(音声対話評価
システムのユーザ)が入力する各々の「望ましい処理結
果」と比較し、現状の「音声対話システム」の性能の評
価情報あるいは、各々の処理のもととなった入力データ
(時系列データ)とのリンク情報などのシステム改良に
有用な情報を提供する。
【0122】ここで、得られた情報をもとに性能を評価
する例として、 ・音声認識性能は、「望ましい処理」としてシステム開
発者が入力する「正解」と、システムの処理結果との音
声認識結果の比較により評価し、 ・音声理解性能は、「望ましい処理」としてシステム開
発者が入力する「正解」と、システムの処理結果との発
話意味理解結果の比較により評価する、 等の処理結果と「望ましい処理」の比較により評価す
る。
【0123】得られた情報を改良に有用な情報として用
いる例として、 ・音声認識性能の向上にために、実際の対話音声データ
に正誤の処理結果のラベルをつけた認識辞書の学習用デ
ータを出力できる。また、新しく追加すべき語彙のリス
トアップができる。 ・音声理解性能の向上のために、想定外の発話をリスト
アップし、文法を追加して理解性能を向上できる。 ・音声区間検出性能の向上のために、音声区間の検出誤
りをリストアップできる。
【0124】このように、個々の認識手段の認識結果で
ある構造情報を蓄積し、個々の認識手段の性能を向上さ
せることで、音声対話評価システム全体の性能を改良す
ることができる。
【0125】以上、時系列データとして、音声データの
例を説明してきたが、以下時系列データとして、画像デ
ータを扱った例を簡単に説明する。カメラ等で構成され
る時系列データ入力手段1から画像データを入力する。
時系列データ入力手段1は、画像データに識別データを
付加し、時系列データ格納手段2と構造解析手段3に送
る。VTR装置等の画像データを記録する装置で構成さ
れる時系列データ格納手段2は、送られた識別データを
付加した画像データを記録する。
【0126】画像の認識処理を行う構造解析手段3は、
キーデータを検出し、構造情報を生成する。現在の画像
認識の装置では、「人間が、時刻taからtbの間、移動し
た」という程度の認識は可能である。このため、「人
間」、「移動」というキーデータの検出が可能である。
また、「時刻情報としてtaからtb、認識結果として人
間、画像データのID」といった構造情報や「時刻情報
としてtaからtb、認識結果として移動、画像データのI
D」といった構造情報を作成することができる。
【0127】前記画像データを検索する場合、「人
間」、「移動」といったキーデータを検索命令入力部5
に入力することによって、検索手段6は、「人間」、
「移動」というキーデータをもつ構造情報を検索し、こ
の構造情報とリンクされている画像データを検索する。
この検索された画像データを情報出力手段7が再生す
る。
【0128】また、キーデータ入力手段8で、「人間」
というキーデータを具体的に人の名前に変更することに
より、より精度の高いキーデータや構造情報の生成がで
きる。
【0129】映画やビデオのように音声データのついた
画像データであれば、音声についてのキーデータの検出
と構造情報の生成と、画像についてのキーデータの検出
と構造情報の生成を行い、活用することにより、質の高
いデータベースを実現できる。
【0130】
【発明の効果】以上説明したように、本発明では、マル
チメディアデータを入力とする時系列データの記録再生
において、その時系列データの認識処理を行いキーデー
タを検索し、キーデータから生成される構造情報を時系
列データとともに記録し、利用者がキーデータをもとに
検索し、時系列データや利用者にとって意味のある情報
だけを再生することができる。また、キーデータの修正
・追加を可能とすることにより構造情報を再度生成し、
利用者のニーズにより近い、利用者にとって質の高いデ
ータベースを提供できる。また、時系列データの構造情
報をもとに認識・理解を評価させ、システムの性能を向
上させることができる。
【図面の簡単な説明】
【図1】本発明の一実施例における全体の構成を示した
図である。
【図2】本発明の一実施例における時系列データの入力
から格納までの手順を示した図である。
【図3】本発明の一実施例における格納されているデー
タを検索し、出力するまでの手順を示した図である。
【図4】本発明の一実施例におけるデータ種別や時刻情
報を付加した付加時系列データを示した図である。
【図5】本発明の一実施例における時系列データの格納
位置を示すアドレス情報と対応する付加時系列データを
示した図である。
【図6】本発明の一実施例における構造情報の一例を示
した図である。
【図7】本発明の一実施例における構造情報の格納位置
を示すアドレス情報と対応する構造情報を示した図であ
る。
【図8】本発明の一実施例における構造解析手段3の内
部構成を示した図である。
【図9】本発明の一実施例における時間変化と音声パワ
ーの関係のグラフを表した図である。
【図10】本発明の一実施例における音声区間の検出に
ついての構造情報を示した図である。
【図11】本発明の一実施例における単語検出について
の構造情報を示した図である。
【図12】本発明の一実施例における発話の意味内容の
候補に関する構造情報を示した図である。
【図13】本発明の一実施例における時間変化と2人の
話者の音声パワーの関係を示した図である。
【図14】本発明の一実施例における使用場所を推定す
るシステムの構成を示した図である。
【図15】本発明の一実施例における既に格納されてい
る時系列データを構造解析手段3に送ることができるよ
うに構成したブロック図である。
【図16】本発明の一実施例における発言内容や話題の
推移と発言内容の近さを画面表示した図である。
【図17】本発明の一実施例における音声対話評価シス
テムに応用した場合の構成図である。
【図18】本発明の一実施例における時系列データの認
識理解結果や応答内容などの対話の構造情報のファイル
出力例を示した図である。
【図19】本発明の一実施例におけるキーデータ入力手
段をウインドウインタフェイスを利用して実現する例を
示した図である。
【図20】本発明の一実施例における正解の単語につい
ての構造情報を示した図である。
【図21】本発明の一実施例における構造情報を話題の
移り変わりと対話の時間的な経過と関連付けて表示させ
る例を示した図である。
【符号の説明】
1 時系列データ入力手段 2 時系列データ格納手段 3 構造解析手段 4 構造情報格納手段 5 検索命令入力手段 6 検索手段 7 情報出力手段 8 キーデータ入力手段 81 音声区間検出部 82 音響分析部 83 単語検出部 84 構文意味解析部 85 環境情報抽出部 140 試験音発生部 141 使用場所推定部 142 残響特性辞書 170 音声対話評価システム 171 音声対話システム 172 対話評価システム 190、191、192、193、194 アイコン 210 会話音声波形表示部 211 テキスト表示部 212 単語音声波形表示部 213 単語検出結果表示部 214 単語認識結果表示部 215 構文意味候補表示部 216 構文意味候補情報表示部 217 構文意味訂正情報表示部
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI G10L 15/28 (72)発明者 川倉 康嗣 神奈川県川崎市幸区小向東芝町1番地 株式会社東芝 研究開発センター内 (72)発明者 溝口 博 神奈川県川崎市幸区小向東芝町1番地 株式会社東芝 研究開発センター内 (72)発明者 田中 久子 神奈川県川崎市幸区小向東芝町1番地 株式会社東芝 研究開発センター内 (72)発明者 新地 秀昭 東京都青梅市新町1385番地 東芝ソフト ウェアエンジニアリング株式会社内 (56)参考文献 特開 昭61−267099(JP,A) 特開 平5−224696(JP,A) 特開 平4−294694(JP,A) 特開 平3−291752(JP,A) 特開 平3−80782(JP,A) 特開 平2−131298(JP,A) 特開 平2−87225(JP,A) 特開 平1−178998(JP,A) 特開 昭59−107393(JP,A) 大久保雅且,中川透,AV情報構造化 技術とその情報要約への応用,情報処理 学会研究報告[情報メディア],日本, 1994年 3月11日,94−IM−15,p. 25−32 (58)調査した分野(Int.Cl.7,DB名) G10L 15/00 G10L 15/08 G10L 15/10 G10L 15/22 G10L 15/28 JICSTファイル(JOIS)

Claims (6)

    (57)【特許請求の範囲】
  1. 【請求項1】 入力データに識別データを付加して時系
    列データとする時系列データ入力手段と、前記時系列デ
    ータを格納する時系列データ格納手段と、 前記時系列データからキーデータを検出し、少なくとも
    検出したキーデータと、このキーデータと前記時系列デ
    ータを関連付けるリンク情報とで構成される構造情報を
    生成する構造情報解析手段と、 この構造情報解析手段で生成された構造情報を格納する
    構造情報格納手段と、前記キーデータを検索キーとし
    て、前記構造情報格納手段に格納された前記構造情報を
    検索し、検索された前記構造情報のリンク情報に基づい
    て前記時系列データを検索する検索手段とを具備し、こ
    の検索手段によって検索されたこの時系列データを再生
    することを特徴とする時系列データ記録再生装置。
  2. 【請求項2】 検索手段によって検索された時系列デー
    タを再生する際に、前記キーデータを含む所定部分の時
    系列データのみを再生することを特徴とする請求項1記
    載の時系列データ記録再生装置。
  3. 【請求項3】 入力データに識別データを付加して時系
    列データとする時系列データ入力手段と、前記時系列デ
    ータを複数格納する時系列データ格納手段と、前記時系
    列データからキーデータを検出し、少なくとも検出した
    キーデータと、このキーデータと前記時系列データを関
    連付けるリンク情報とで構成される構造情報を生成する
    構造情報解析手段と、 この構造情報解析手段で生成された構造情報を格納する
    構造情報格納手段と、前記キーデータを検索キーとし
    て、前記構造情報格納手段に格納された前記構造情報を
    検索し、検索された前記構造情報のリンク情報に基づい
    て複数の時系列データから所定の時系列データを検索す
    る検索手段とを具備し、 この検索手段によって検索されたこの所定の時系列デー
    タを再生することを特徴とする時系列データ記録再生装
    置。
  4. 【請求項4】 入力データに識別データを付加した時系
    列データからキーデータを検出し、少なくとも検出した
    キーデータと、このキーデータと前記時系列データを関
    連付けるリンク情報と時系列データの環境を表す環境情
    報とで構成される構造情報を生成する構造情報解析手段
    と、 この構造情報解析手段で生成された構造情報を格納する
    構造情報格納手段と、 前記キーデータを検索キーとして、前記構造情報格納手
    段に格納された前記構造情報を検索し、検索された前記
    構造情報のキーデータに対応する部分の環境情報を検索
    する検索手段とを具備し、 この検索手段によって検索されたこの環境情報を利用者
    の目に見える形で再生することを特徴とする時系列デー
    タ記録再生装置。
  5. 【請求項5】 新しい構造情報を作成するために、キー
    データを利用者が直接入力するキーデータ入力手段を具
    備することを特徴とする請求項1記載の時系列データ記
    録再生装置。
  6. 【請求項6】 構造情報を利用者が直接入力するキーデ
    ータ入力手段を具備することを特徴とする請求項1記載
    の時系列データ記録再生装置。
JP32523193A 1993-06-03 1993-12-22 時系列データ記録再生装置 Expired - Lifetime JP3437617B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP32523193A JP3437617B2 (ja) 1993-06-03 1993-12-22 時系列データ記録再生装置
US08/720,218 US5787414A (en) 1993-06-03 1996-09-26 Data retrieval system using secondary information of primary data to be retrieved as retrieval key

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP5-133118 1993-06-03
JP13311893 1993-06-03
JP32523193A JP3437617B2 (ja) 1993-06-03 1993-12-22 時系列データ記録再生装置

Publications (2)

Publication Number Publication Date
JPH0749695A JPH0749695A (ja) 1995-02-21
JP3437617B2 true JP3437617B2 (ja) 2003-08-18

Family

ID=26467541

Family Applications (1)

Application Number Title Priority Date Filing Date
JP32523193A Expired - Lifetime JP3437617B2 (ja) 1993-06-03 1993-12-22 時系列データ記録再生装置

Country Status (1)

Country Link
JP (1) JP3437617B2 (ja)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3274603B2 (ja) * 1996-04-18 2002-04-15 エヌイーシーソフト株式会社 音声集計システムおよび音声集計方法
JP3534712B2 (ja) * 2001-03-30 2004-06-07 株式会社コナミコンピュータエンタテインメント東京 音声編集装置及び音声編集プログラム
JP3534711B2 (ja) * 2001-03-30 2004-06-07 株式会社コナミコンピュータエンタテインメント東京 音声編集装置及び音声編集プログラム
JP2002366166A (ja) * 2001-06-11 2002-12-20 Pioneer Electronic Corp コンテンツ提供システム及び方法、並びにそのためのコンピュータプログラム
EP1556857B1 (en) * 2002-10-23 2013-07-31 Nuance Communication, Inc. Controlling an apparatus based on speech
EP1453287B1 (en) * 2003-02-28 2007-02-21 Xerox Corporation Automatic management of conversational groups
US7617094B2 (en) 2003-02-28 2009-11-10 Palo Alto Research Center Incorporated Methods, apparatus, and products for identifying a conversation
JP3816901B2 (ja) * 2003-05-30 2006-08-30 株式会社東芝 ストリームデータの編集方法と編集システム及びプログラム
JP4558308B2 (ja) 2003-12-03 2010-10-06 ニュアンス コミュニケーションズ,インコーポレイテッド 音声認識システム、データ処理装置、そのデータ処理方法及びプログラム
JP4324089B2 (ja) 2004-12-17 2009-09-02 富士通株式会社 音声再生プログラムおよびその記録媒体、音声再生装置ならびに音声再生方法
JP4626448B2 (ja) * 2005-08-26 2011-02-09 株式会社デンソー 音声評価システム
WO2019087779A1 (ja) * 2017-10-31 2019-05-09 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
US10645035B2 (en) * 2017-11-02 2020-05-05 Google Llc Automated assistants with conference capabilities
JP7083922B2 (ja) * 2018-08-01 2022-06-13 株式会社Fuji 介助システム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
大久保雅且,中川透,AV情報構造化技術とその情報要約への応用,情報処理学会研究報告[情報メディア],日本,1994年 3月11日,94−IM−15,p.25−32

Also Published As

Publication number Publication date
JPH0749695A (ja) 1995-02-21

Similar Documents

Publication Publication Date Title
JP4466564B2 (ja) 文書作成閲覧装置、文書作成閲覧ロボットおよび文書作成閲覧プログラム
JP4558308B2 (ja) 音声認識システム、データ処理装置、そのデータ処理方法及びプログラム
US7054817B2 (en) User interface for speech model generation and testing
US8407049B2 (en) Systems and methods for conversation enhancement
US7788095B2 (en) Method and apparatus for fast search in call-center monitoring
KR100446627B1 (ko) 음성대화 인터페이스를 이용한 정보제공장치 및 그 방법
JP2007519987A (ja) 内部及び外部オーディオビジュアルデータの統合解析システム及び方法
US8812314B2 (en) Method of and system for improving accuracy in a speech recognition system
JP3437617B2 (ja) 時系列データ記録再生装置
JP4215792B2 (ja) 会議支援装置、会議支援方法および会議支援プログラム
US20110004473A1 (en) Apparatus and method for enhanced speech recognition
JPWO2008114811A1 (ja) 情報検索システム、情報検索方法及び情報検索用プログラム
KR20120038000A (ko) 대화의 주제를 결정하고 관련 콘텐트를 획득 및 제시하는 방법 및 시스템
JP3621686B2 (ja) データ編集方法、データ編集装置、データ編集プログラム
TWI807428B (zh) 一同管理與語音檔有關的文本轉換記錄和備忘錄的方法、系統及電腦可讀記錄介質
Wilcox et al. Annotation and segmentation for multimedia indexing and retrieval
JP3234083B2 (ja) 検索装置
JPH0482357A (ja) 記録および検索方法ならびに自動記録装置
KR101783872B1 (ko) 동영상 검색 시스템 및 방법
Clements et al. Phonetic searching of digital audio
KR101508718B1 (ko) 온라인상에서의 듣고 받아쓰기 시스템
JP2002032397A (ja) 検索装置
KR102274275B1 (ko) 음성파일이 연동된 텍스트 링크 생성 어플리케이션 및 방법
EP3910626A1 (en) Presentation control
Kristjansson et al. A unified structure-based framework for indexing and gisting of meetings

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090606

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090606

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100606

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100606

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110606

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120606

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120606

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130606

Year of fee payment: 10

EXPY Cancellation because of completion of term