JP3437617B2

JP3437617B2 - 時系列データ記録再生装置

Info

Publication number: JP3437617B2
Application number: JP32523193A
Authority: JP
Inventors: 重宣瀬戸; 洋一竹林; 康嗣川倉; 博溝口; 久子田中; 秀昭新地
Original assignee: Toshiba Corp; Toshiba Digital Media Engineering Corp
Current assignee: Toshiba Corp; Toshiba Development and Engineering Corp
Priority date: 1993-06-03
Filing date: 1993-12-22
Publication date: 2003-08-18
Anticipated expiration: 2018-08-18
Also published as: JPH0749695A

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は時系列データを格納し、
格納した時系列データを再生する時系列データ記録再生
装置に関する。

【０００２】

【従来の技術】近年、計算機の処理能力の向上を背景
に、音声、画像などのマルチメディアデータの格納と再
生および編集処理を行うために、マルチメディアデータ
の記録や検索を様々な形態で行うことが可能になってい
る。

【０００３】大容量記録媒体が比較的容易に利用できる
ようになり、マルチメディアデータの入出力あるいは加
工、編集処理によるアプリケーションが開発されている
ものの、これらは単にマルチメディアデータの出し入れ
による編集機能の実現にとどまっている。

【０００４】膨大なデータ量となるマルチメディアデー
タの記録は、十分な記録容量を有する記録媒体を用いる
ことにより実現することは可能である。しかし、記録し
たマルチメディアデータの検索と出力は、そのデータの
量が膨大になるほど、記憶されたデータの中から必要な
部分を探し出すための計算機の労力が大きくなるため、
効果的に実現されているとはいえない。

【０００５】特に、扱うデータが時系列データであれ
ば、検索に要する時間はデータの時間の長さに比例して
長くなる。また、利用者が検索して出力したい情報は必
ずしも膨大なマルチメディアデータそのものであるとは
限らず、むしろ、マルチメディアデータの中の意味のあ
る部分であったり、あるいはその意味そのもの、つま
り、キーデータであることが多い。

【０００６】このキーデータは、従来の単なるマルチメ
ディアデータの記録・再生・編集処理だけでは得ること
ができない。例えば、音声データとして「えーと、オレ
ンジジュースを１つ、いや、３つほしい。」という発言
が入力された場合、この入力された音声データをそのま
ま出力するよりも「オレンジジュースを３つほしい。」
という主旨の意味のある情報を出力するほうが、利用者
はわかりやすい。

【０００７】そのため、マルチメディアの認識処理を行
いキーデータを検出し、少なくとも検出した前記キーデ
ータと、このキーデータと前記時系列データとを関連付
けるリンク情報で構成される構造情報を作成し、キーデ
ータを含む構造情報の一部の組み合わせを意味のある部
分として出力する必要がある。

【０００８】このような認識処理などの自動的に構造情
報を生成する構造解析処理においてまず問題となるの
は、実時間処理や検出したキーデータの誤りの問題であ
る。実時間処理の問題は、計算機能力の向上により、音
声、画像などを認識する処理が十分リアルタイムに実現
できるようになりつつある。

【０００９】構造解析結果の誤りの問題は、あらかじめ
キーデータに誤りが含まれ得る場合もあることを前提と
して、キーデータ生成処理で自動的に生成されたキーデ
ータを利用者が修正したり、利用者がキーデータそのも
のを直接付加するといった更新処理を行うことにより、
さらに正確なキーデータを作成することができる。しか
し、キーデータを後の検索時の検索キーとして利用する
マルチメディアデータの記録・検索装置はまだ存在して
いない。

【００１０】

【発明が解決しようとする課題】上述のような従来のマ
ルチメディア時系列データの記録・検索装置では、記録
・再生・編集処理といったマルチメディア時系列データ
の単なる出し入れによる編集機能の実現は可能であっ
た。

【００１１】また、マルチメディア時系列データの認識
処理も、十分リアルタイムに実現できるようになりつつ
あるが、利用者にとって意味のあるキーデータを得るこ
とはできなかった。

【００１２】本発明は、マルチメディア時系列データの
中から利用者にとって必要な意味のある部分だけを取り
出して再生したり、時系列データの中の意味のある情報
を出力することのできる、時系列データ記録再生装置を
提供することを目的とする。

【００１３】また、構造情報を生成する構造解析処理能
力の向上のためにシステムを改良していく必要がある
が、構造解析の処理結果をもとに改良するシステムを提
供することを目的とする。

【００１４】

【課題を解決するための手段】本発明は、上記課題を解
決するために、入力データに識別データを付加してマル
チメディアの時系列データとする時系列データ入力手段
と、前記時系列データを格納する時系列データ格納手段
と、前記時系列データからキーデータを検出し、少なく
とも検出したキーデータと、このキーデータと前記時系
列データを関連付けるリンク情報とで構成される構造情
報を生成する構造情報解析手段と、この構造情報解析手
段で生成された構造情報を格納する構造情報格納手段
と、前記キーデータを検索キーとして、前記構造情報格
納手段に格納された前記構造情報を検索し、検索された
前記構造情報のリンク情報に基づいて前記時系列データ
を検索する検索手段とを具備し、この検索手段によって
検索されたこの時系列データを再生することを特徴とす
る。

【００１５】

【作用】本発明の時系列データ記録再生装置によれば、
時系列データや構造情報の中から、時系列データや利用
者の必要な情報を検索する場合に、キーデータを検索キ
ーとして時系列データや利用者の必要な情報を取り出す
ことができる。

【００１６】また、利用者が直接キーデータを入力でき
るため、構造解析手段において自動的に生成した構造情
報が誤っていたり不十分である場合も、構造情報格納手
段に記録されている構造情報を情報出力手段で画面出力
し確認しながら、利用者が随時検索キーとなるキーデー
タの修正・追加ができる。

【００１７】さらに、現時点において構造情報が不十分
である場合にも、既に時系列データ格納手段に記録され
ている時系列データを利用して新たに構造情報を作成す
ることにより、必要なキーデータが含まれる構造情報を
改めて構築し直すことができる。

【００１８】

【実施例】まず、音声や動画像のような時系列データを
認識・処理するシステム（認識理解システムと呼ぶこと
にする）に適用した本発明の一実施例について説明す
る。ここでは、認識・理解だけでなく、その結果を受け
て何らかの応答・出力する応答システムや対話システム
であってもよい。

【００１９】例えば、キーデータは、認識・理解などの
処理結果である。リンク情報は、処理結果を得るもとと
なった時系列データとの対応を示す情報である。即ち、
時系列データのどの部分から得たキーデータであるかを
示す情報である。

【００２０】一般に、認識・理解などの処理は、複数の
処理段階を経る。例えば音声認識理解であれば、音声区
間の検出、音声分析、パターン認識、言語処理などの複
数の処理を経る。単語スポティングをベースとする音声
認識（坪井、橋本、竹林：“キーボードスポッティング
に基づく連続音声理解”電子情報通信学会技術研究報
告、SP-91-95,pp.33-40(1991.12)）ならば、単語検出、
構文解析、単語解析、意味解析などの処理を経る。

【００２１】このように、複数の処理結果を経る場合、
キーデータは、最終的な処理結果だけでなく、途中の各
処理段階における中間的な処理結果もキーデータとする
ことも可能である。

【００２２】この場合、リンク情報はもとの入力時系列
データとの対応を示す情報としてもよいし、前の処理段
階における処理結果との対応を示す情報としてもよい。
例えば、上述の単語スポティングをベースとする音声理
解ならば、検出された単語、単語列からなる構文木、解
析結果として得られた意味を各々キーデータとし、リン
ク情報としては、もとの音声データとの対応を示す情報
（例えば時間あるいはサンプル点あるいはデータのアド
レスなど）を利用してもよいし、中間結果としての単語
列や構文木をリンク情報として間接的に入力音声データ
との対応をとってもよい。

【００２３】入力する時系列データとして、マルチメデ
ィアデータのように複数の種類のデータを扱う場合に
は、キーデータがどの時系列データに対応するかを示す
データ識別子をリンク情報に含めることにより、その対
応がより明確になる。

【００２４】検索は、認識・理解システムが出力するこ
とのできる上述のキーデータが指定されると、それに一
致するキーデータをもつ構造情報を検索し、その構造情
報に記されたリンク情報からもとの時系列データにアク
セスすることによって、実現する。

【００２５】具体的に本発明の一実施例を図面をもとに
説明する。時系列データの入力と格納までの手順を、図
１の本発明の時系列データ記録再生装置の一実施例のブ
ロック図と図２のフローチャートをもとに簡単に説明す
る。

【００２６】時系列データは、ステップ「時系列データ
入力」２００にあるように、マイクやカメラなどの時系
列データ入力手段１から入力される。時系列データ入力
手段１は、ステップ「時系列データを時系列データ格納
手段に送る」２０１にあるように、入力された時系列デ
ータを時系列データ格納手段２に送る。

【００２７】時系列データ格納手段２は、ステップ「時
系列データを時系列データ格納手段に格納する」２０２
にあるように、送られた時系列データを格納する。同様
に、時系列データ入力手段１は、ステップ「時系列デー
タを構造情報解析手段に送る」２０３にあるように、入
力された時系列データを構造解析手段３に送る。

【００２８】構造解析手段３は、ステップ「構造情報を
生成する」２０４にあるように、送られた時系列データ
の認識処理を行いキーデータを検出し、少なくとも検出
した前記キーデータと、前記キーデータの時刻情報と、
前記時系列データと前記キーデータをリンクさせる情報
で構成される構造情報を生成する。

【００２９】構造解析手段３で生成された時系列データ
の構造情報は、ステップ「構造情報を構造情報格納手段
に格納する」２０５にあるように、構造情報格納手段４
に格納される。ここでいうキーデータとは、入力された
時系列データから取り出した、音声認識などのパターン
認識処理結果など、時系列データの一部を意味づけする
ことのできる、利用者にとって意味のある情報である。

【００３０】時系列データ格納手段２に格納された時系
列データおよび構造情報格納手段４に格納された時系列
データの意味のある情報を利用者の要求に従って出力す
る手順を図３のフローチャートをもとに簡単に説明す
る。

【００３１】利用者は、ステップ「検索命令入力」３０
０にあるように、検索命令入力手段５に検索キーとして
入力するキーデータを入力する。検索命令手段５は、ス
テップ「検索命令を検索手段に送る」３０１にあるよう
に、検索の命令を検索手段６に送る。

【００３２】検索手段６は、ステップ「検索を行う」３
０２にあるように、検索命令手段５に入力された検索の
命令に従い、キーデータに対応する構造情報を構造情報
格納手段４からすべて検索し、検索された構造情報のリ
ンクさせる情報をもとに時系列データを時系列データ格
納手段２から検索する。

【００３３】検索手段６は、同様に検索された構造情報
をもとにキーワードの組み合わせ等の意味のある情報を
構造情報格納手段４から検索する。検索手段６は、ステ
ップ「検索したデータを情報出力手段におくる」３０３
にあるように、検索した時系列データや意味のある情報
を、情報出力手段７に送る。

【００３４】情報出力手段７は、ステップ「検索したデ
ータを出力する」３０４にあるように、検索した時系列
データや意味のある情報を、視覚的あるいは聴覚的に利
用者に提示する。

【００３５】情報出力手段７は、時系列データを利用者
に提示する場合、時系列データや意味のある部分を他意
味のある部分と区別して出力することができるものとす
る。キーデータ入力手段８は、マウスやペン、タッチパ
ネルなどポインティングデバイスあるいはキーボードな
どの入力装置である。

【００３６】キーデータ入力手段８は、利用者からのキ
ーデータの修正、追加などを受け付ける。これらの入力
装置を利用する場合は、情報出力手段７でキーデータや
構造情報を画面表示し、利用者からの入力があればキー
データに対応する構造情報を変更する。

【００３７】このようにして、構造解析手段３が検出し
たキーデータの修正だけでなく、利用者が構造情報を変
更・追加することができる。このような、利用者による
キーデータの入力は、情報出力手段７により構造情報格
納手段４および時系列データ格納手段２に記録されてい
る内容を確認しながら行い、利用者の要求に合った構造
情報に改良することができ、構造情報の質を高めること
ができる。

【００３８】以下具体的に、時系列データとして音声デ
ータを入出力する場合について説明する。音声データ
は、マイクなどの入力装置を持つ時系列データ入力手段
１によって入力される。

【００３９】時系列データ入力手段１は、図４（ａ）の
ように、入力された音声データにデータ種別、時刻情報
といった識別データを付加する。データ種別とは、入力
装置、チャネル番号、メディアの種類、標本化周波数な
どデータ離散化情報のように入力データを再生するため
の情報である。この情報を以下、付加時系列データとよ
ぶ。

【００４０】各入力装置は同時に複数利用でき、例え
ば、複数のマイクを利用したマルチチャネル入力も可能
である。この場合、データ種別の一情報として、どのチ
ャネルから入力されたデータであるかを示すチャネル番
号も含まれることになる。

【００４１】また、入力開始時刻は、システムに音声デ
ータが入力された時刻を指すが、もともと入力されたマ
ルチメディアデータの中に時刻情報が含まれている場合
は、それをそのまま利用することも可能である。

【００４２】図４（ｂ）は、時系列データ入力手段１
が、音声データに「データがマイクで入力され、マイク
のチャネルが２番、データのメディアは音声、標本化周
波数が１２ｋＨｚ、量子化情報が１６ｂｉｔ、そして、
音声の開始時刻がｔｓで終了時刻がｔｅある」という情
報を付加時系列データを表の形式で図示したものであ
る。

【００４３】時系列データ入力手段１は、識別データを
付加した図４の付加時系列データを時系列データ格納手
段２と構造解析手段３に送る。時系列データ格納手段２
は、送られた付加時系列データと、時系列データのＩＤ
と時系列データ格納手段２のアドレスを対応づけた付加
時系列データの格納位置を示す情報を格納する。図５
（ａ）は、時系列データＩＤ「SP-129」という時系列デ
ータが、時系列データ格納手段２の「××××」という
アドレスの記憶領域に格納されていることを示してい
る。図５（ｂ）は、「××××」というアドレスに時系
列データＩＤ「SP-129」の付加時系列データを格納して
いる表の形式で図示したものである。

【００４４】構造解析手段３は、付加時系列データの認
識処理を行いキーデータを検出し、少なくとも検出した
前記キーデータと、前記キーデータの時刻情報と、前記
時系列データと前記キーデータをリンクさせる情報で構
成される構造情報を作成する。構造情報は構造情報の種
類を示す構造情報名あるいは構造情報ＩＤのほかに、音
声データのどの部分から得たかを示す時刻情報が必ず含
まれるよう構成されている。この時刻情報は、付加時系
列データの開始時刻と標本化周波数などデータの離散化
情報をもとに得ることができる。この構造情報を図６の
ように表示することにする。

【００４５】図６の構造情報は、構造情報ＩＤが「WD-
5」、もととなる時系列データのＩＤ「SP-129」、構造
情報名が「単語検出結果」、時刻情報として開始時刻
「t1」、終了時刻「t2」、および検出されたキーデータ
であるキーワードから構成されていることを示してい
る。認識処理によるキーワードの検出についてはのちに
詳しく述べる。

【００４６】構造解析手段３は、生成した構造情報を構
造情報格納手段４に送り、構造情報格納手段４は、送ら
れた構造情報と、構造情報のＩＤと構造情報格納手段内
のアドレスを対応づけた構造情報の格納位置を示す情報
を格納する。図７（ａ）は、構造情報ＩＤ「WD-5」とい
う構造情報が、構造情報格納手段４の「○○○○」とい
うアドレスの記憶領域に格納されていることを示してい
る。図７（ｂ）は、「○○○○」というアドレスに構造
情報ＩＤ「WD-5」の構造情報を格納している表の形式で
図示したものである。

【００４７】以下、構造解析手段３での音声データの認
識処理を具体的に説明する。ここでは構造情報として、
音声分析処理、単語検出処理、構文意味解析処理、対話
構造理解処理などを通じて得られる音声区間、発声単
語、発話意味内容、発話環境情報といったキーデータの
検出を例にとって説明する。

【００４８】ここで構造解析手段３は、図８にあるよう
に、音声区間検出部８１、音響分析部８２、単語検出部
８３、構文意味解析部８４、環境情報抽出部８５から構
成されるものとする。音声区間検出部８１は、音声デー
タ中の音声が存在する区間をキーデータとして検出す
る。これは音声信号のパワーを調べ、その値が一定時間
にある閾値を越えたときの始点を音声区間の始端とし、
また、パワー値が一定時間にある閾値を越えないとき、
その始点を音声区間の終端とすることで実現する。分か
りやすくするため、図９に時間変化と音声パワーの関係
を表したグラフで示すが、この図９の音声の開始時刻ｔ
１（始端）、終了時刻ｔ２（終端）を検出することにな
る。これは音声信号のパワー値が一定時間（ｄｔ１）で
閾値を越えたときの始点を音声区間の始端とし、また、
パワー値が一定時間（ｄｔ２）で閾値を越えないとき、
その始点を音声区間の終端とすることで実現できる。こ
のパワーの閾値、持続時間の長さは、始端検出と終端検
出とで異なる値を設定すれば、検出精度を高めることが
できる。この音声区間の検出についての構造情報は、こ
こでは図１０のように表し、構造情報ＩＤ「ＶＰ−０１
３」、もととなる時系列データのＩＤ「ＳＰ−１２
９」、構造情報名「音声区間」、時刻情報として開始時
刻「ｔ１」、終了時刻「ｔ２」、キーデータとして音声
区間「ｔ１からｔ２」を持つ。ここでは、キーデータが
音声の区間を時間で表したものであるため、時刻情報と
同じようなデータであるが、構造情報ではキーデータと
時刻情報を明確に区別する必要がある。

【００４９】音響分析部８２は、音声データの音響分析
を行う。ここで、ＦＦＴ（高速フーリエ変換）等の方法
によるスペクトル分析、周波数領域での平滑化、対数変
換を行い、例えば、１６チャンネルのバンドパスフィル
タより８ｍｓ間隔で音響分析結果、つまり、周波数スペ
クトルのパターンを得る。

【００５０】この音響分析結果つまり、周波数スペクト
ルのパターンを単語検出部８３に送り、単語検出部８３
で単語検出処理が行われる。単語検出部８３は、例えば
文献（金沢、坪井、竹林“不要語を含む連続音声中から
の単語検出”電子情報通信学会技術研究報告、SP91-22,
pp.33-39(1991.6)）に開示された方法で単語検出の処理
を行うことができる。これにより、入力音声の周波数ス
ペクトル系列のパターンと検出対象となる単語の周波数
スペクトル系列の標準パターンとの照合を行い、スコア
の高い単語を単語検出結果情報として得ることができ
る。

【００５１】単語検出部８３で得られた単語検出結果情
報は、単語とその始端、終端、標準パターンとの類似度
などのキーデータとを合わせて扱うことにより、時間情
報、単語名、登録されている単語との尤度などのキーデ
ータを検出された単語に組み合わせて構造情報として扱
うことができる。図１１（ａ）に示すように、ここで単
語検出の構造情報は、構造情報ＩＤ「WD-7」、もととな
る時系列データのＩＤ「SP-129」、構造情報名「単語検
出結果」、時刻情報として開始時刻「t1」、終了時刻
「t2」、単語名（キーワード）「はい」、尤度「0.82」
で構成される。

【００５２】これらの検出対象となる単語は、利用者が
あらかじめ決めておき、必要に応じて追加・削除など変
更することも可能である。上述の単語検出部８３の処理
の例は、検出単語ごとに周波数スペクトル系列の標準パ
ターンを持つものとして説明したが、もちろん、音韻単
位で周波数スペクトル系列の標準パターンを持つことも
可能である。また、単語単位の照合と音韻単位の照合を
併用することもできる。

【００５３】ところで、単語検出部８３が検出した単語
検出結果情報は、必ずしもそのまま単語認識の最終結果
となるわけではない。単語検出結果情報として得たキー
ワードの中には、発話の中に含まれていた検出すべき正
しい単語のほかに、実際には発話に含まれていないが周
波数スペクトル系列が類似しているために誤検出された
単語も含まれている可能性がある。例えば、「はい」と
いう単語と「大」（“だい”と読む場合）という単語は
類似しているため誤検出される可能性がある。ここで、
「大」がキーデータとして検出され、構造情報を生成し
た場合、この構造情報は図１１（ｂ）のように構造情報
ＩＤ「WD-8」、もととなる時系列データのＩＤ「SP-12
9」、構造情報名「単語検出結果」、時刻情報として開
始時刻「t1」、終了時刻「t2」、単語名（キーワード）
「大」、尤度「0.75」で構成される。

【００５４】構文意味解析部８４は、単語検出部８３で
の検出結果として得られた単語に対し、可能なあらゆる
単語系列（時間的に重ならない単語の組合せ）について
構文意味解析を行い、受理可能な単語系列によって生ま
れる発話の意味内容を意味表現候補とする。

【００５５】また、ここで得られる意味表現候補は、必
ずしも１つにしぼられず、受理可能な単語系列の候補が
複数存在することがあり得る。これらの複数の候補の中
から、それまでの発話の意味内容の履歴を考慮して適切
な意味表現を選択することにより、最終的に発話の意味
を決定する。したがって、単語認識の最終結果は、ここ
で選択された意味表現を構成する単語系列を指す。これ
らの発話の意味を決定する処理は、文献（坪井、橋本、
竹林“キーワードスポッティングに基づく連続音声理
解”電子情報通信学会技術研究報告、SP91-95,pp.33-40
(1991.12) ）、あるいは、文献（貞本、新地、坪井、竹
林“不特定話者音声対話システムＴＯＳＢＵＲＧの対話
処理”日本音響学会講演論文集、1-P-17,pp.137-138(19
92.3) ）に開示された方法により、行うことができる。

【００５６】これらは、予想される単語の並びから意味
表現を得る方法であり、想定される単語の並びとその意
味表現から予め決めておくことができる。また、利用者
が必要に応じて追加・削除など変更することも可能であ
る。追加・削除についてはのちに詳しく説明する。

【００５７】上述した、意味表現候補と意味表現候補を
構成する単語系列は、発話の意味内容の候補に関するキ
ーデータとして扱うことができる。このキーデータから
構造情報を作成したものを図１２で示すが、図１２の構
造情報は、構造情報ＩＤ「SR-5」、もととなる時系列デ
ータのＩＤ「SP-129」、構造情報名「発話意味」、開始
時刻「t1」、終了時刻「t2」、発話の意味「肯定」、構
成単語の総数が２つで、「はい」「そうです」という単
語、意味表現として選択されたか否かを表している。ま
た、単語系列についての情報は、単語検出結果として得
た構造情報を指すポインタを持つことによって、単語検
出結果に関する構造情報とリンクできる。また同様に、
最終的に選択した意味表現とそれを構成する単語系列も
発話の意味内容に関する構造情報として扱うことができ
る。

【００５８】環境情報抽出部８５は、音声データを取り
込んだ際の周囲の環境に関するキーデータを抽出し、構
造情報を作成する。環境情報抽出部８５を加えることに
より、さらに詳細な構造情報を得ることができることに
なる。

【００５９】例えば、複数の話者の発声した音声を入力
データとして扱う場合について図１３をもとに説明す
る。図１３（ａ）は、話者Ａのマイクから入力した音声
の音声パワーを表し、図１３（ｂ）は、話者Ｂのマイク
から入力した音声パワーをグラフで表したものであるも
のとする。

【００６０】また、出席者ごとにマイクを用意しなくて
も、マイクアレイ（指向性のあるマイク）を構成すれば
特定の方向の利得を大きく取ることができ、話者のいる
方向からの音声を強めて取り出すことができ、話者を特
定することも可能である。したがって、これらの方法を
利用し、どの話者による発声かというキーデータが抽出
でき、これを構造情報に利用できる。

【００６１】全ての話者の音声区間を比較することによ
って、どの話者も発声していない時間を沈黙として検出
することができる。また、一方、これらの方法を利用す
れば、逆に、話者以外の周囲環境音の成分を取り出すこ
とも可能である。すなわち、音声区間検出部８１により
検出された音声データの音声区間以外の部分を周囲環境
音として扱うことができる。話者Ａのマイクから入力さ
れた周囲環境音を表したグラフを図１３（ｃ）に表し、
話者Ｂのマイクから入力された周囲環境音を表したグラ
フを図１３（ｄ）に表す。ここでは、図１３（ａ）と図
１３（ｂ）の音声区間でない部分が周囲環境音になる。

【００６２】この周囲環境音の中には、音声以外の周囲
環境の雑音のほか、パワーが低かったり持続時間が短い
ために音声区間として扱われなかった音声が含まれる。
このため、周囲環境音のパワーの大きさを調べることに
より、ざわめきなど、周囲環境の静かさの程度を構造情
報に利用できる。この周囲環境を表す情報は、意味のあ
るキーデータとは違うので、ここでは環境情報と定義す
る。

【００６３】この周囲環境音の中には、音声以外の周囲
環境の雑音のほか、パワーが低かったり持続時間が短い
ために音声区間として扱われなかった音声が含まれる。
このため、周囲環境音のパワーの大きさを調べることに
より、ざわめきなど、周囲環境の静かさの程度を環境情
報として構造情報に利用できる。

【００６４】周囲環境音として笑い声や拍手など、その
場の雰囲気を表わす特徴的な音を認識することにより、
使用時の雰囲気を環境情報として構造情報に利用でき
る。音声区間検出部８１が出力する音声区間の始端、終
端のキーデータを組み合わせることにより、１人の話者
が発話を終了してから、別の話者が発話を開始するまで
の時間が短いほど活発な対話を行なっているなどの判断
が可能であり、これを環境情報として構造情報に利用で
きる。前出の図１３では、話者Ａが話し終わったt2から
話者Ｂが話し始めたｔ３までの時間が短いほど活発な対
話を行なっていることになる。

【００６５】また、残響特性の標準パターンとする辞書
を作成することにより、周囲環境音から場所の推定がで
きる。特に、本装置を利用する場所がある程度限られる
場合、自分の部屋、会議室、廊下、屋外といった使用場
所ごとの残響特性を集めることにより、残響特性の標準
パターンとする辞書を作成することができる。図１４の
ように試験音発生部１４０が電源投入時などに出力する
システムのビープ音を試験信号として発生させ、マイク
等の音声入力装置から使用場所推定部１４１に入力させ
る。使用場所推定部１４１は、残響特性辞書１４２に格
納されている使用場所のデータと照合する。

【００６６】このようにして推定した利用場所を環境情
報として利用し、どこの場所で入力したかを示す情報が
付加され、構造情報として構造情報格納部４に格納され
る。このほか、対話の中でやりとりされた発話の意味内
容を対話履歴として保持しておき、新たに入力された発
話の意味内容と対話履歴から現在の対話の状況を知るこ
とができる。これをキーデータとして構造情報に利用す
ることも可能である。

【００６７】なお、本実施例では、構造解析される時系
列データは、時系列データ入力手段１を介して入力され
るとしているが、これをオンラインで解析するだけでな
く、図１５に示すように（図１と同一の符号を付す）、
時系列データ格納手段２に既に格納されている時系列デ
ータを構造解析手段３に送ることができるように構成
し、既に格納されている時系列データを解析し新しいキ
ーデータを生成することも可能である。

【００６８】新しいキーデータを作成することよって、
すでに解析を行なった時系列データに対し、再び認識処
理をやり直すことができる。たとえば、データ入力時に
認識させた単語と異なる語を認識語彙として設定して、
再び構造解析することもできる。

【００６９】また、単語認識だけでなく意味表現の場合
でも、予想していた場面での単語の並びや意味表現の候
補の範囲をこえた際には、単語の並びや意味表現を利用
者が正しく設定して、改めて構造解析することによっ
て、適切な構造情報を生成することができる。

【００７０】つぎに、これらのキーデータを利用して得
られるキーデータの例をいくつか示す。簡単のため、話
者ごとにマイクを用意するなどの方法により、すでに話
者ごとに音声データが分離されているとする。

【００７１】この話者ごとの音声データを分析して、音
声区間を示すキーデータから構造情報を生成し、構造情
報格納手段４に格納したとものする。このキーデータ
は、ある話者がいつ発声したかを示す情報であり、どの
話者がいつ、どれくらい長く発声したか、どれくらい頻
繁に発声したかがわかる。また、どれくらい頻繁に話者
が交替したか、一定時間にどれだけ多くの話者が発声し
たか、１人の話者が発話を終了してから別の話者が発話
を開始するまでの時間差の大きさなどによって、対話や
議論がいかに白熱しているかを知ることができる。

【００７２】また、同じように音声データを分析して、
単語音声認識の認識結果を示すキーデータから構造情報
を生成し、構造情報格納手段４に格納したものとする。
例えば会議出席者の音声データを入力した場合、その会
議におけるそれぞれの話題ごとに頻出する単語を認識対
象語のキーデータとしておけば、いつどういう話題につ
いて議論していたかをおよその内容についてその単語か
ら知ることができる。またある人が発言した特定の単語
を認識対象語のキーデータとすれば、重要な発言のあっ
た部分を検索して取り出すことができる。

【００７３】前述したように、既に時系列データ格納部
２に記録してある音声データを分析することもできるの
で、認識対象語は音声データを取り込んだ後に設定し直
すことも可能であり、事前に想定していなかった重要な
発言の検索を行なうこともできる。

【００７４】さらに、音声データの分析から、発話の意
味表現を示すキーデータから構造情報を生成し、構造情
報格納手段４に格納したものとする。これにより、いつ
どういう話題について議論していたかをおよその内容に
ついてその意味表現のキーデータから知ることができ
る。また、誰がどういう内容について発言したか、誰と
誰の発言内容が近かったかについて知ることができる。
また、話題の推移はどうだったかを図示すれば議論の流
れを整理して図解・整理することができる。

【００７５】時系列データが複数格納されている場合、
これらにまたがって共通する構造情報があれば、これを
リンクして検索することも可能である。たとえば、複数
の音声データに共通する話者がいる場合、同じ話者をピ
ックアップすることができる。

【００７６】複数の会議の音声データが入力されている
場合、それらの話者を示す構造情報から、ある会議に出
席していた人が、別の会議で発言していた内容を検索す
ることも可能である。

【００７７】また、複数の音声データに共通する単語が
ある場合、ある会議で主要な話題となった単語につい
て、以前の会議ではどう使われていたか、単語を示す構
造情報を頼りに検索することができる。

【００７８】ここで、誰が何を発言したか、話題の推移
と発言内容の近さを画面表示する例を図１６に示す。図
１６（ａ）は、会議参加者Ａ、Ｂ、Ｃ、Ｄ、Ｅの５人で
行われた会議で、議決をとったとき状況を図示したもの
である。ここでは、議決をとったときの音声データを構
造解析した結果、誰が何を言ったかという発話意味を表
し、Ａが賛成、Ｂが反対、Ｃが反対、Ｄが条件付きの賛
成、Ｅが賛成という主旨の意見を述べたことを示してい
る。

【００７９】図１６（ｂ）は、会議における時間の経過
と、発言の内容の近さを図示したものである。ここで
は、はじめＤの案１とＢの案２があり、発言内容が離れ
ていて、また、他の発言者もなく会議が停滞していた
が、後にＡが案３を出してから議論が活発になり、Ｄも
Ａの意見に近くなっていったことを示している。

【００８０】構造情報どうしは、構造情報名あるいは構
造情報ＩＤ、および時刻情報をもとに互いに関係づけら
れ、新たな構造情報を生成する。以下、検索、出力、そ
して、利用者によるキーデータの入力について簡単に説
明する。

【００８１】前述したように、検索時はキーデータを検
索キーとして利用する。利用者は検索命令入力手段５に
キーデータを入力する。ここでは、「はい」という単語
をキーデータとして入力する。検索命令入力手段５に入
力されたキーデータを検索手段６に送り、検索手段６は
構造情報格納手段４から「はい」というキーデータをも
つ構造情報をすべて検索する。検索手段６は検索した構
造情報を情報出力手段７に送り、情報出力手段７は、検
索された構造情報を提示し、利用者はこれを参照して、
さらに検索したい構造情報のキーデータを検索命令入力
手段５を利用して入力する。

【００８２】検索命令入力手段５は、さらにキーデータ
で構成される検索キーの入力を受け付け、検索命令を検
索手段６に送る。例えば、時刻t1からt2に肯定の発言を
したときの時系列データを再生する場合、開始時刻「t
1」、終了時刻「t2」、発話意味「肯定」というキーデ
ータを利用者は検索命令入力手段５に入力する。

【００８３】検索手段６は、構造情報格納手段４から利
用者の入力したキーデータに一致する構造情報を検索す
る。ここでは、図１２に示した構造情報「SR-5」が検索
され、すでに「はい」というキーデータが入力されてい
るので、「はい」というキーデータをもつ構造情報と構
造情報「SR-5」から「はい」というキーデータをもつ構
造情報「WD-7」という構造情報が検索される。

【００８４】意味のある情報のみを出力させる場合、検
索された構造情報を情報出力手段７に送り、情報出力手
段７は送られた構造情報の一部である意味のある情報を
出力する。

【００８５】音声データそのものを出力させる場合、検
索手段６は、すでに検索した構造情報「WD-7」にあるも
との音声データのＩＤから、時系列データ格納手段２に
格納されている音声データにもアクセスする。

【００８６】情報出力手段７は、スピーカやＣＲＴのよ
うなディスプレイ装置などで構成され、検索手段６が検
索したもととなった音声データを再生する。時系列デー
タの出力は、入力データのすべてもしくは一部を再生す
ることに相当し、構造情報の出力は、視覚的表示を用い
時系列データを短時間で表現したり、メタファとしての
音を聴覚的に出力する。たとえば、単語認識で得た構造
情報の表示としては、認識した単語をテキストやアイコ
ンを利用して表示したり、発話理解により得た構造情報
の表示では、キーワードのテキスト表示による意味内容
を表現することが可能である。会議記録の表示では、話
者の席順や発言時刻や発言の意味内容に応じてアイコン
表示と意味内容のテキスト表示を行い、どの発言者がど
ういう意味内容の発言をしてきたか、誰のどういう意味
内容の発言に対して他の者がどういう意味内容の発言を
したかという記録を表示する。また、前述の図１６
（ｂ）のように「議論が活発」、「停滞」、であったな
どの情報を色調や濃淡などの視覚的な表現で示すことに
より効果的な出力ができる。

【００８７】キーデータ入力手段８は、マウスやペン、
タッチパネルなどポインティングデバイスあるいはキー
ボードなどの入力装置で構成される。キーデータ入力手
段８は、これらの入力装置によって利用者からのキーデ
ータの修正、追加などを受け付ける。これらの入力装置
を利用する場合は、情報出力手段７にキーデータや構造
情報を画面に表示し、修正・追加の対象となるキーデー
タをカーソルの場所で示し、利用者からの入力がキーワ
ード入力手段８にあれば対応する構造情報を変更する。

【００８８】このように利用者がキーデータを入力する
ことにより、構造解析手段３が自動的に生成したキーデ
ータや構造情報の修正だけでなく、利用者がキーデータ
や構造情報を追加することができる。

【００８９】利用者によるキーデータの入力は、情報出
力手段７により構造情報格納手段４および時系列データ
格納手段２に格納されている内容を確認しながら行い、
利用者の要求に合った構造情報に改良することができ、
構造情報の質を高めることができる。

【００９０】利用者が入力するキーデータの１つとし
て、音声データや構造情報に関する利用者の評価を含め
ることもできる。例えば、各話者の発言内容に対する評
価を☆、○、△、×などのランクに分けて評価し、これ
をキーデータとして構造情報に付加したとする。極めて
重要と思われる発話には☆を、重要と思われる内容には
○を、重要ではないが話題進行に関係する発話には△
を、特に話題進行にも関係しない発話には×を付けたと
する。あとでポイントとなる部分を調べるときには☆の
部分を検索し、要約する場合には○の部分を検索し、時
間の余裕があるときに話題の流れを追う場合には△の部
分を検索することができる。

【００９１】次に、認識・理解システムの評価システム
（認識・理解評価システムと呼ぶことにする）に適用し
た例について説明する。一般に認識・理解システムの性
能向上のためには、システムを実際に利用して行った実
データを多く収集する必要があるが、収集した大量のデ
ータを管理する手間と労力が要求される。本実施例のよ
うに、全ての認識・理解結果を各々キーデータとし、そ
れを得るもとになった時系列データとのリンク情報を保
持していれば、各々の認識・理解結果を得た時系列デー
タだけを選択的に出力することができる。

【００９２】この場合、入力時系列データは認識・理解
システムへの入力時系列データおよび認識・理解結果の
データである。上述の例のように、認識・理解システム
内で複数の処理段階を経る場合、各段階における中間的
な処理結果も含めて、時系列データとして扱うこともで
きる。

【００９３】評価システムでは、認識・理解性能を評価
するための評価規模、すなわち、（Ａ）望ましい認識・
理解結果（途中結果）あるいは正しい認識・理解結果
（途中結果）がキーデータに相当する。あるいは、
（Ｂ）認識・理解システムの認識・理解結果（途中結
果）と望ましいあるいは正しい認識・理解結果（途中結
果）との間の比較の結果をキーデータとしてもよい。あ
るいは、キーデータを、（Ｃ）現状の認識・理解システ
ムでは認識・理解対象としていないものの、今後は対象
とすべき時系列データに対するラベルとすることもでき
る。

【００９４】リンク情報は、（ａ）認識・理解システム
の処理結果との対応を示す情報としてもよいし、（ｂ）
認識・理解システムへの入力時系列データとの対応を示
す情報（例えば、時間、あるいはサンプル点、あるいは
データのアドレスなど）としてもよい。

【００９５】これらの情報はユーザが入力することがで
きる。キーデータを望ましい認識結果（Ａ）として、リ
ンク情報を（ｂ）として検索すれば、ある認識対象に対
する入力データの実データを収集でき、これを学習用デ
ータとして使ってより精度の高い認識辞書を得ることが
できる。

【００９６】キーデータ（Ｂ）を集計すれば、認識・理
解性能を得ることができ、リンク情報をたどれば、ある
認識対象に対する入力時系列データを正誤の判定結果と
ともに収集できる。

【００９７】キーデータ（Ｃ）を使い検索すれば現状シ
ステムで扱えない、実データだけを収集できる。以下、
本発明の時系列データ記録システムを、音声対話システ
ムとその利用者との間で行なわれた対話を評価する、音
声対話評価システムに応用する例を図１７をもとに説明
する。

【００９８】図１７にあるように、音声対話評価システ
ム１７０は、利用者の発声する音声を認識理解し音声応
答や画面表示による応答を利用者に返すシステムである
音声対話システム１７１と、音声対話システム１７１の
認識理解結果の精度、対話状況を考慮した対話音声デー
タベース作成などの機能を持つ対話評価システム１７２
で構成される。つまりここでは、音声対話システム１７
１は、構造解析手段３のように音声データを認識して構
造情報を出力し、対話評価システム１７２は、本発明の
時系列データ記録再生装置で、音声対話システム１７１
が入力した構造情報から音声対話システム１７１の音声
認識結果の評価を行うものである。

【００９９】以下、対話評価システム１７２の構成は図
１に示した構成と同様のものとする。また、図１と同一
の符号で説明する。音声対話システム１７１は、対話評
価システム１７２（時系列データ記録再生装置）の時系
列データ入力手段１に対話音声のＰＣＭデータ、および
認識理解結果や応答内容などの対話の情報が含まれる付
加時系列データやキーデータ、構造情報を送る。

【０１００】音声対話システム１７１が、対話評価シス
テム１７２の時系列データ入力部１に送る認識理解結果
や応答内容などの対話の情報のファイル出力例を図１８
に示す。この音声対話システムのファイル出力には、何
回目の発話であるかを示す発話番号、音声対話システム
とその利用者の発話の音声区間、単語検出結果、構文・
意味解析によって得られた複数の意味表現の候補、これ
ら複数の候補の中から、対話の履歴を考慮して選択した
意味表現（理解結果）、応答内容などが含まれている。
対話評価システム１７２は、この入力データを音声デー
タと構造情報に分離する。

【０１０１】音声対話システム１７１の認識理解結果の
精度を調べるためには、単語検出・認識結果や発話の意
味の理解結果の正解のキーデータを人間が与えなければ
ならないが、これは対話評価システム１７２のキーデー
タ入力手段８を用いて利用者が追加入力する。

【０１０２】図１９は、ハンバーガーショップでの注文
を受け付ける音声対話システムを一例として、キーデー
タ入力手段８と情報出力手段７の一部をウインドウシス
テムのライブラリであるウインドウインタフェイスを利
用して実現する例であり、対話評価システムの利用者が
画面に表示された認識単語のアイコンをマウスやペンで
クリックすることにより、正解の単語のテキストを与え
ることができる。この例では、認識単語だけでなく、１
回の発話が終了したことを示す区切り用のアイコンも用
意している。例えば、対話評価システム１７２のキーデ
ータ入力手段８をウインドウインタフェイスで構成する
と、正解の認識単語のテキストは容易に入力、修正する
ことができる。ここで、オレンジジュースの小さいサイ
ズのものを１つ注文するという意味を入力する場合、ペ
ンなどで図１９に示した画面の「オレンジジュース」を
示すアイコン１９０と、「小」を示すアイコン１９１
と、「１つ」を示すアイコン１９２と「ください」を示
すアイコン１９３と「発話終了」を示すアイコン１９４
を触れて入力する。

【０１０３】ところで、図１９のウインドウインタフェ
イスで入力した正解の認識単語のテキストには、単語の
始端、終端などの時間情報が含まれていない。時間情報
を得るには、対話音声データを情報出力手段７から認識
単語の存在する区間を部分的に再生出力して試聴し、確
認しながら対話評価システム１７２の利用者が決定す
る。認識単語の存在する区間は、対話評価システム１７
２の利用者が入力して決定するが、音声対話システム１
７１が認識した結果として得た認識単語の始端、終端を
初期値とすれば、対話評価システム１７２の利用者の入
力の負担は大幅に軽減される。

【０１０４】発話の意味表現の正解を入力する場合も、
ウインドウインタフェイスを用意すれば実現できる。ま
た、既に正しい単語の並びが得られていれば、その意味
解析を行うことによって発話内容の意味表現を得ること
ができる。この意味表現を修正することにより、評価シ
ステムの利用者が直接入力する必要のあるデータは軽減
される。

【０１０５】このようにして利用者が正解のキーデータ
を入力して得られた構造情報は、音声対話システム１７
１の出力するキーデータや構造情報、つまり、対話評価
システム１７２に入力されたキーデータや構造情報と照
合し、音声対話システム１７１の単語検出性能を示す構
造情報を構成する。

【０１０６】例えば、利用者が正解の単語のキーデータ
「はい」をキーデータ入力手段８で入力し、図２０
（ａ）に表した正解の単語を示す構造情報を作成する。
構造解析手段３は、図２０（ａ）に表した正解の単語を
示す構造情報「WC-5」の時刻情報、つまり、開始時刻
「t1」、終了時刻「t2」をもとに、図１１に示した単語
検出結果を示す構造情報と照合し、正解の単語を検出し
ているか、検出されていない単語があるか（脱落）、正
解にない単語を検出しているか（挿入）について調べ、
それぞれの結果から単語検出性能を示す構造情報を生成
する。

【０１０７】ここで、図１１（ａ）の構造情報「WD-7」
がある場合、単語検出結果を示す構造情報「WD-7」のポ
インタあるいは構造情報ＩＤが含まれ、正解の単語を示
す構造情報「WC-5」の情報と合わせ、図２０（ｂ）に示
すような、音声対話システム１７１の単語検出性能を示
す構造情報を作成ことができる。

【０１０８】さらに、単語検出性能を示す構造情報と単
語認識結果を示す構造情報と照合し、単語認識性能を示
す構造情報を生成する。ここで、前述したように、単語
認識結果を示す構造情報は、単語検出結果を示す構造情
報とリンクする情報を持っているので、その単語が正解
かあるいは正解でないかが判定できる。したがって、単
語認識結果に含まれる単語列のそれぞれが正しいか否か
が判断できる。このようにして、音声対話システム１７
１の単語認識性能を評価することができる。

【０１０９】また、正解の発話の意味表現を示す構造情
報は、意味表現候補や選択した意味表現を示す構造情報
と照合され、選択すべき意味表現候補を正しく選択して
いるか、意味表現候補の中に選択すべきものがない場合
はあるかについての情報が含まれた理解性能を示す構造
情報を生成する。

【０１１０】上述した構造情報は、以下に述べるよう
に、音声対話システム１７１の性能向上に利用すること
ができる。例えば、単語検出性能の向上について述べ
る。対話評価システム１７２の利用者の入力した正解の
単語を示す構造情報から、実対話中の単語音声データを
リストアップすることができる。これにより、ある単語
だけの音声データを集めた音声データベースを得ること
ができる。この音声データを用いて単語検出用の辞書の
再学習を行えば、単語認識性能の向上が図れる。さら
に、単語検出性能を示す構造情報を用いれば、単語ごと
の検出精度が得られ、特に検出性能の低い単語から再学
習を行えば、性能向上を迅速に行うことができる。

【０１１１】対話評価システム１７２の情報出力手段７
における、構造情報を話題の移り変わりと対話の時間的
な経過と関連付けて表示させる出力例を図２１をもとに
説明する。ここでは、図１８のファイル出力例を表示し
たものである。

【０１１２】会話音声波形表示部２１０は、会話の音声
の音声波形である。これは音声の時系列データを波形で
再現したものである。テキスト表示部２１１は、時間情
報付きの時系列データをテキストで表現したものを出力
する。

【０１１３】単語音声波形表示部２１２は、会話内容表
示部２１１で点滅している部分の音声波形を出力してい
る。単語検出結果表示部２１３は、単語音声波形表示部
２１２で表示した音声波形から検出される単語を表示す
る。ここでは、波形が似ている単語、音声区間が似てい
る単語などが検出される。

【０１１４】単語認識結果表示部２１４は、検出された
単語の中から、正しいと認識した単語を表示する。ここ
では、4.74秒から5.12秒に発話された単語が「ポテト」
と認識されたことを示している。

【０１１５】構文意味候補表示部２１５は、検出された
単語の中や認識された単語の中から文章の意味となる候
補を表示する。ここでは、検出した単語から注文を意味
する５つの候補が出力されているが、認識された単語か
ら１番目の候補が選択されている。

【０１１６】構文意味候補情報表示部２１６は、構文意
味候補表示部２１５で選択した候補から「ハンバーガー
２つ」「ポテトの大１つ」「コーラ３つ」を注文すると
いう意味を表示する。

【０１１７】構文意味訂正情報表示部２１７は、構文意
味候補情報表示部２１６に表示された意味候補情報が誤
りを含んでいる場合に訂正した意味候補情報を表示す
る。以上のように、対話履歴に関する構造情報を利用
し、話題の移り変わりと対話の時間的な経過と関連付け
て表示させることにより、対話が滞っているか、円滑に
進んでいるかなどを視覚的に表示できる。

【０１１８】以上のような「音声対話評価システム」に
おける評価用対話データ（時系列データ）の扱いについ
て以下にまとめる。ここでの時系列データは、・対話時の音声データ（少なくともシステム応答とユー
ザ発話の２ch）である。

【０１１９】そして、時系列データとしても構造情報と
しても扱うことができるものとして例えば図１８に示す
システムの認識結果のように、・システム応答，ユーザの発話の開始・終了時刻（一般
には複数個ある）・ユーザ発話から取り出した（単語）音声認識結果（単
語の始端時刻・終端時刻も含む）・ユーザの（一発話に対する）発話意味理解結果・システムの内部状態・システムの応答内容（これらは各々、「音声対話システム」の音声区間検出
部、音声認識部（単語検出部）、音声理解部、対話管理
部、応答生成部の処理結果にほぼ相当する。）およびそ
の他に「望ましい処理として」システム開発者（評価
者）が入力する「正解」がある。

【０１２０】そして、評価のため「音声対話システム」
とユーザの間で音声を使った（画面表示も利用）対話が
行われる。音声対話システムへユーザの発話が入力され
ると、この音声データの分析・認識理解、対話処理、応
答生成により、上記の音声データ，発話の開始・終了時
刻、音声認識結果、発話意味理解結果、内部状態、応答
内容が各々決定・生成される。

【０１２１】「音声対話評価システム」は、システム性
能向上と、ユーザインタフェース改良のため、上記の各
処理データ、処理結果を記録し、評価者（音声対話評価
システムのユーザ）が入力する各々の「望ましい処理結
果」と比較し、現状の「音声対話システム」の性能の評
価情報あるいは、各々の処理のもととなった入力データ
（時系列データ）とのリンク情報などのシステム改良に
有用な情報を提供する。

【０１２２】ここで、得られた情報をもとに性能を評価
する例として、・音声認識性能は、「望ましい処理」としてシステム開
発者が入力する「正解」と、システムの処理結果との音
声認識結果の比較により評価し、・音声理解性能は、「望ましい処理」としてシステム開
発者が入力する「正解」と、システムの処理結果との発
話意味理解結果の比較により評価する、等の処理結果と「望ましい処理」の比較により評価す
る。

【０１２３】得られた情報を改良に有用な情報として用
いる例として、・音声認識性能の向上にために、実際の対話音声データ
に正誤の処理結果のラベルをつけた認識辞書の学習用デ
ータを出力できる。また、新しく追加すべき語彙のリス
トアップができる。・音声理解性能の向上のために、想定外の発話をリスト
アップし、文法を追加して理解性能を向上できる。・音声区間検出性能の向上のために、音声区間の検出誤
りをリストアップできる。

【０１２４】このように、個々の認識手段の認識結果で
ある構造情報を蓄積し、個々の認識手段の性能を向上さ
せることで、音声対話評価システム全体の性能を改良す
ることができる。

【０１２５】以上、時系列データとして、音声データの
例を説明してきたが、以下時系列データとして、画像デ
ータを扱った例を簡単に説明する。カメラ等で構成され
る時系列データ入力手段１から画像データを入力する。
時系列データ入力手段１は、画像データに識別データを
付加し、時系列データ格納手段２と構造解析手段３に送
る。ＶＴＲ装置等の画像データを記録する装置で構成さ
れる時系列データ格納手段２は、送られた識別データを
付加した画像データを記録する。

【０１２６】画像の認識処理を行う構造解析手段３は、
キーデータを検出し、構造情報を生成する。現在の画像
認識の装置では、「人間が、時刻taからtbの間、移動し
た」という程度の認識は可能である。このため、「人
間」、「移動」というキーデータの検出が可能である。
また、「時刻情報としてtaからtb、認識結果として人
間、画像データのＩＤ」といった構造情報や「時刻情報
としてtaからtb、認識結果として移動、画像データのＩ
Ｄ」といった構造情報を作成することができる。

【０１２７】前記画像データを検索する場合、「人
間」、「移動」といったキーデータを検索命令入力部５
に入力することによって、検索手段６は、「人間」、
「移動」というキーデータをもつ構造情報を検索し、こ
の構造情報とリンクされている画像データを検索する。
この検索された画像データを情報出力手段７が再生す
る。

【０１２８】また、キーデータ入力手段８で、「人間」
というキーデータを具体的に人の名前に変更することに
より、より精度の高いキーデータや構造情報の生成がで
きる。

【０１２９】映画やビデオのように音声データのついた
画像データであれば、音声についてのキーデータの検出
と構造情報の生成と、画像についてのキーデータの検出
と構造情報の生成を行い、活用することにより、質の高
いデータベースを実現できる。

【０１３０】

【発明の効果】以上説明したように、本発明では、マル
チメディアデータを入力とする時系列データの記録再生
において、その時系列データの認識処理を行いキーデー
タを検索し、キーデータから生成される構造情報を時系
列データとともに記録し、利用者がキーデータをもとに
検索し、時系列データや利用者にとって意味のある情報
だけを再生することができる。また、キーデータの修正
・追加を可能とすることにより構造情報を再度生成し、
利用者のニーズにより近い、利用者にとって質の高いデ
ータベースを提供できる。また、時系列データの構造情
報をもとに認識・理解を評価させ、システムの性能を向
上させることができる。

【図面の簡単な説明】

【図１】本発明の一実施例における全体の構成を示した
図である。

【図２】本発明の一実施例における時系列データの入力
から格納までの手順を示した図である。

【図３】本発明の一実施例における格納されているデー
タを検索し、出力するまでの手順を示した図である。

【図４】本発明の一実施例におけるデータ種別や時刻情
報を付加した付加時系列データを示した図である。

【図５】本発明の一実施例における時系列データの格納
位置を示すアドレス情報と対応する付加時系列データを
示した図である。

【図６】本発明の一実施例における構造情報の一例を示
した図である。

【図７】本発明の一実施例における構造情報の格納位置
を示すアドレス情報と対応する構造情報を示した図であ
る。

【図８】本発明の一実施例における構造解析手段３の内
部構成を示した図である。

【図９】本発明の一実施例における時間変化と音声パワ
ーの関係のグラフを表した図である。

【図１０】本発明の一実施例における音声区間の検出に
ついての構造情報を示した図である。

【図１１】本発明の一実施例における単語検出について
の構造情報を示した図である。

【図１２】本発明の一実施例における発話の意味内容の
候補に関する構造情報を示した図である。

【図１３】本発明の一実施例における時間変化と２人の
話者の音声パワーの関係を示した図である。

【図１４】本発明の一実施例における使用場所を推定す
るシステムの構成を示した図である。

【図１５】本発明の一実施例における既に格納されてい
る時系列データを構造解析手段３に送ることができるよ
うに構成したブロック図である。

【図１６】本発明の一実施例における発言内容や話題の
推移と発言内容の近さを画面表示した図である。

【図１７】本発明の一実施例における音声対話評価シス
テムに応用した場合の構成図である。

【図１８】本発明の一実施例における時系列データの認
識理解結果や応答内容などの対話の構造情報のファイル
出力例を示した図である。

【図１９】本発明の一実施例におけるキーデータ入力手
段をウインドウインタフェイスを利用して実現する例を
示した図である。

【図２０】本発明の一実施例における正解の単語につい
ての構造情報を示した図である。

【図２１】本発明の一実施例における構造情報を話題の
移り変わりと対話の時間的な経過と関連付けて表示させ
る例を示した図である。

【符号の説明】

１時系列データ入力手段２時系列データ格納手段３構造解析手段４構造情報格納手段５検索命令入力手段６検索手段７情報出力手段８キーデータ入力手段８１音声区間検出部８２音響分析部８３単語検出部８４構文意味解析部８５環境情報抽出部１４０試験音発生部１４１使用場所推定部１４２残響特性辞書１７０音声対話評価システム１７１音声対話システム１７２対話評価システム１９０、１９１、１９２、１９３、１９４アイコン２１０会話音声波形表示部２１１テキスト表示部２１２単語音声波形表示部２１３単語検出結果表示部２１４単語認識結果表示部２１５構文意味候補表示部２１６構文意味候補情報表示部２１７構文意味訂正情報表示部

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁷ 識別記号ＦＩＧ１０Ｌ 15/28 (72)発明者川倉康嗣神奈川県川崎市幸区小向東芝町１番地株式会社東芝研究開発センター内 (72)発明者溝口博神奈川県川崎市幸区小向東芝町１番地株式会社東芝研究開発センター内 (72)発明者田中久子神奈川県川崎市幸区小向東芝町１番地株式会社東芝研究開発センター内 (72)発明者新地秀昭東京都青梅市新町1385番地東芝ソフトウェアエンジニアリング株式会社内 (56)参考文献特開昭61−267099（ＪＰ，Ａ) 特開平５−224696（ＪＰ，Ａ) 特開平４−294694（ＪＰ，Ａ) 特開平３−291752（ＪＰ，Ａ) 特開平３−80782（ＪＰ，Ａ) 特開平２−131298（ＪＰ，Ａ) 特開平２−87225（ＪＰ，Ａ) 特開平１−178998（ＪＰ，Ａ) 特開昭59−107393（ＪＰ，Ａ) 大久保雅且，中川透，ＡＶ情報構造化技術とその情報要約への応用，情報処理学会研究報告［情報メディア］，日本, 1994年３月11日，94−ＩＭ−15，ｐ. 25−32 (58)調査した分野(Int.Cl.⁷，ＤＢ名) G10L 15/00 G10L 15/08 G10L 15/10 G10L 15/22 G10L 15/28 ＪＩＣＳＴファイル（ＪＯＩＳ)

Claims

(57)【特許請求の範囲】

【請求項１】入力データに識別データを付加して時系
列データとする時系列データ入力手段と、前記時系列デ
ータを格納する時系列データ格納手段と、前記時系列データからキーデータを検出し、少なくとも
検出したキーデータと、このキーデータと前記時系列デ
ータを関連付けるリンク情報とで構成される構造情報を
生成する構造情報解析手段と、この構造情報解析手段で生成された構造情報を格納する
構造情報格納手段と、前記キーデータを検索キーとし
て、前記構造情報格納手段に格納された前記構造情報を
検索し、検索された前記構造情報のリンク情報に基づい
て前記時系列データを検索する検索手段とを具備し、こ
の検索手段によって検索されたこの時系列データを再生
することを特徴とする時系列データ記録再生装置。
【請求項２】検索手段によって検索された時系列デー
タを再生する際に、前記キーデータを含む所定部分の時
系列データのみを再生することを特徴とする請求項１記
載の時系列データ記録再生装置。
【請求項３】入力データに識別データを付加して時系
列データとする時系列データ入力手段と、前記時系列デ
ータを複数格納する時系列データ格納手段と、前記時系
列データからキーデータを検出し、少なくとも検出した
キーデータと、このキーデータと前記時系列データを関
連付けるリンク情報とで構成される構造情報を生成する
構造情報解析手段と、この構造情報解析手段で生成された構造情報を格納する
構造情報格納手段と、前記キーデータを検索キーとし
て、前記構造情報格納手段に格納された前記構造情報を
検索し、検索された前記構造情報のリンク情報に基づい
て複数の時系列データから所定の時系列データを検索す
る検索手段とを具備し、この検索手段によって検索されたこの所定の時系列デー
タを再生することを特徴とする時系列データ記録再生装
置。
【請求項４】入力データに識別データを付加した時系
列データからキーデータを検出し、少なくとも検出した
キーデータと、このキーデータと前記時系列データを関
連付けるリンク情報と時系列データの環境を表す環境情
報とで構成される構造情報を生成する構造情報解析手段
と、この構造情報解析手段で生成された構造情報を格納する
構造情報格納手段と、前記キーデータを検索キーとして、前記構造情報格納手
段に格納された前記構造情報を検索し、検索された前記
構造情報のキーデータに対応する部分の環境情報を検索
する検索手段とを具備し、この検索手段によって検索されたこの環境情報を利用者
の目に見える形で再生することを特徴とする時系列デー
タ記録再生装置。
【請求項５】新しい構造情報を作成するために、キー
データを利用者が直接入力するキーデータ入力手段を具
備することを特徴とする請求項１記載の時系列データ記
録再生装置。
【請求項６】構造情報を利用者が直接入力するキーデ
ータ入力手段を具備することを特徴とする請求項１記載
の時系列データ記録再生装置。