JP2006139133A

JP2006139133A - 音声情報生成装置、その方法、そのプログラム、そのプログラムを記録した記録媒体、音声情報のデータ構造、音声情報を記録した記録媒体、音声出力制御装置、および、そのシステム

Info

Publication number: JP2006139133A
Application number: JP2004329516A
Authority: JP
Inventors: 和哉 ▲高▼橋; Kazuya Takahashi; Ryuichiro Matsumoto; 隆一郎松本; Kentaro Yamamoto; 健太郎山本
Original assignee: Pioneer Electronic Corp
Current assignee: Pioneer Corp
Priority date: 2004-11-12
Filing date: 2004-11-12
Publication date: 2006-06-01

Abstract

【課題】外部からの音に応じて良好に音声を出力させる音声出力装置を提供する。
【解決手段】外部音を集音して取得した外部音データの音量に基づき、無音部分で外部音データから音声セグメント情報を分割する。音声セグメント情報をテキスト形式に変換して言語解析し、一言となる音声セグメント情報を音声データとする。音声データの前に位置する音声セグメント情報中の語句と音声データの語句との関連度合いを、経過時間が長くかつ語句の数が多くなるに従って小さくなるスコア値に設定し関連度情報を生成する。音声データに語句情報および関連度情報を関連付けて１つの音声情報を生成する。外部音データ中に、音声情報の語句情報と同一の語句を認識すると、この語句情報の音声情報を検索し、無音期間が１〜２秒以上経過した際、最も高いスコア値となる関連度情報の音声情報の音声データを音声出力する。
【選択図】図１

Description

本発明は、外部音に応じて音声を出力するための音声に関する音声情報のデータ構造、その音声情報を記録した記録媒体、および、その音声情報を生成する音声情報生成装置、その方法、そのプログラム、そのプログラムを記録した記録媒体、ならびに、音声出力制御装置、および、音声出力制御システムに関する。

従来、音声を認識して音声データを出力するロボットや玩具、テレビゲームプログラムなどの各種構成が広く利用されている（例えば、特許文献１参照）。例えば、特許文献１に記載のものは、ロボットに適用した構成で、頭部ユニットの所定位置に配設されたマイクロホンでユーザの発話を含む周囲の音声を集音する。そして、得られた音声信号に基づいて、モデル記憶部の状態情報における韻律を感情モデルの値に基づいて制御した合成音を生成し、スピーカから出力させる構成が採られている。

特開２００２−３０４１８７号公報（第３頁右欄−第１０頁左欄）

しかしながら、上述した特許文献１に記載のような音声出力する従来の構成では、あらかじめ記憶された音声データを出力する構成であることから、発話の内容に対して発音される音声データに限りがある問題が一例として挙げられる。

本発明の目的は、このような点に鑑みて、外部からの音に応じて良好に音声を出力させることが可能となる音声情報生成装置、その方法、そのプログラム、そのプログラムを記録した記録媒体、音声情報のデータ構造、音声情報を記録した記録媒体、音声出力制御装置、および、音声出力制御システムを提供することである。

請求項１に記載の発明は、集音した外部音に応じて音声を出力するための前記音声に関する音声情報を生成する音声情報生成装置であって、前記外部音に関する一連の外部音データを取得する外部音取得手段と、前記外部音データの音特性を認識する音特性認識手段と、前記音特性に基づき前記外部音データが区切られる区切位置を認識する区切位置認識手段と、前記区切位置の間における前記外部音データの一部を前記音声に関する音声データとして生成する音声データ生成手段と、前記音声データに対して前記外部音データにおける前後に位置する他の前記音声データとの関連度合いを演算し関連度情報を生成する関連度認識手段と、前記他の音声データとこの他の音声データおよび前記音声データの関連度合いに関する前記関連度情報とを前記音声データに関連付けて１つのデータ構造の前記音声情報を生成する音声情報生成手段と、を具備したことを特徴とした音声情報生成装置である。

請求項１２に記載の発明は、集音した外部音声に応じて音声を出力するための前記音声に関する音声情報を生成する音声情報生成装置であって、前記外部音声に関する一連の外部音データを取得する外部音取得手段と、前記外部音データの音特性を認識する音特性認識手段と、前記音特性に基づき前記外部音データが区切られる区切位置を認識する区切位置認識手段と、前記区切位置の間における前記外部音データの一部を前記音声に関する音声データとして生成する音声データ生成手段と、前記音声データに対して前記外部音データにおける前後に位置する外部音声の語句を認識する語句認識手段と、前記音声データと前記語句との関連度合いを演算し関連度情報を生成する関連度認識手段と、前記語句に関する語句情報とこの語句情報および前記音声データの関連度合いに関する前記関連度情報とを前記音声データに関連付けて１つのデータ構造の前記音声情報を生成する音声情報生成手段と、を具備したことを特徴とした音声情報生成装置である。

請求項２８に記載の発明は、演算手段により、集音した外部音に応じて音声を出力するための前記音声に関する音声情報を生成する音声情報生成方法であって、前記演算手段は、前記外部音に関する一連の外部音データを取得し、この取得した外部音データの音特性を認識し、この認識した音特性に基づいて前記外部音データが区切られる区切位置を認識し、この認識した区切位置の間における前記外部音データの一部を抽出して前記音声に関する音声データとして生成し、この生成した音声データに対して前記外部音データにおける前後に位置する他の音声データとの関連度合いを演算して関連度情報を生成し、前記他の音声データと、この他の音声データおよび前記音声データの関連度に関する前記関連度情報とを、前記音声データに関連付けて１つのデータ構造の前記音声情報を生成することを特徴とする音声情報生成方法である。

請求項２９に記載の発明は、演算手段により、集音した外部音声に応じて音声を出力するための前記音声に関する音声情報を生成する音声情報生成方法であって、前記演算手段は、前記外部音声に関する一連の外部音データを取得し、この取得した外部音データの音特性を認識し、この認識した音特性に基づいて前記外部音データが区切られる区切位置を認識し、この認識した区切位置の間における前記外部音データの一部を抽出して前記音声に関する音声データとして生成し、この生成した音声データに対して前記外部音データにおける前後に位置する外部音声の語句に関する語句情報を生成し、この生成した語句情報の語句と前記音声データの音声との関連度合いを演算して関連度情報を生成し、前記語句情報と、この語句情報および前記音声データの関連度合いに関する前記関連度情報とを、前記音声データに関連付けて１つのデータ構造の前記音声情報を生成することを特徴とする音声情報生成方法である。

請求項３０に記載の発明は、演算手段を、請求項１なし請求項２７のいずれかに記載の音声情報生成装置として機能させることを特徴とした音声情報生成プログラムである。

請求項３１に記載の発明は、請求項２８または請求項２９に記載の音声情報生成方法を演算手段に実行させることを特徴とした音声情報生成プログラムである。

請求項３２に記載の発明は、請求項３０または請求項３１に記載の音声情報生成プログラムが演算手段に読取可能に記録されたことを特徴とした音声情報生成プログラムを記録した記録媒体である。

請求項３３に記載の発明は、請求項１ないし請求項２７のいずれかに記載の音声情報生成装置で生成され、演算手段にて読み取り可能に構築されたことを特徴とした音声情報のデータ構造である。

請求項３４に記載の発明は、演算手段にて読取可能で、集音した外部音に応じて前記演算手段により音声を出力するための音声情報のデータ構造であって、前記外部音に関する一連の外部音データの音特性に基づいて、前記外部音データが区切られる区切位置の間における前記外部音データの一部が抽出された前記音声に関する音声データと、この音声データに対して前記外部音データにおける前後の位置で抽出される他の音声に関し、前記音声データに１つのデータ構造に関連付けられる他の音声データと、前記音声データおよび前記他の音声データとの関連度合いに関し、前記音声データおよび前記他の音声データに１つのデータ構造に関連付けられる関連度情報と、を具備したことを特徴とした音声情報のデータ構造である。

請求項３５に記載の発明は、演算手段にて読取可能で、集音した外部音声に応じて前記演算手段により音声を出力するための音声情報のデータ構造であって、前記外部音声に関する一連の外部音データの音特性に基づいて、前記外部音データが区切られる区切位置の間における前記外部音データの一部が抽出された前記音声に関する音声データと、この音声データに対して前記外部音データにおける前後に位置する外部音声から抽出された語句に関し、前記音声データに１つのデータ構造に関連付けられる語句情報と、前記音声データおよび前記語句情報との関連度合いに関し、前記音声データおよび前記語句情報に１つのデータ構造に関連付けられる関連度情報と、を具備したことを特徴とした音声情報のデータ構造である。

請求項３６に記載の発明は、請求項３３ないし請求項３５のいずれかに記載の音声情報のデータ構造が演算手段にて読取可能に記録されたことを特徴とした音声情報を記録した記録媒体である。

請求項３７に記載の発明は、集音した外部音に応じて音声を出力させる制御をする音声出力制御装置であって、請求項１ないし請求項２７のいずれかに記載の音声情報生成装置で生成された音声情報、または、請求項３３ないし請求項３５のいずれかに記載の音声情報のデータ構造を複数記憶するテーブル構造に構築された記憶手段と、前記集音した外部音に含まれる音声と同一の音声に対応する前記音声情報を前記記憶手段から検索する音声検索手段と、前記検索により取得した前記音声情報のうち、前記関連度情報に基づいて所定の前記音声データを選出する選出手段と、前記選出された音声データをスピーカから出力させる制御をする出力制御手段と、を具備したことを特徴とした音声出力制御装置である。

請求項４１に記載の発明は、集音した外部音に応じて音声を出力させる制御をする音声出力制御システムであって、請求項１ないし請求項２７のいずれかに記載の音声情報生成装置で生成された音声情報、または、請求項３３ないし請求項３５のいずれかに記載の音声情報のデータ構造を複数記憶するテーブル構造に構築された記憶手段と、この記憶手段にネットワークを介して前記音声情報を取得可能に接続され、前記外部音に関する一連の外部音データを取得する外部音取得手段、前記取得した外部音データの外部音に含まれる音声と同一の音声に対応する前記音声情報を前記ネットワークを介して前記記憶手段から検索する音声検索手段、前記検索により取得した前記音声情報のうち、前記関連度情報に基づいて所定の前記音声データを選出する選出手段、および、前記選出された音声データをスピーカから出力させる制御をする出力制御手段を備えた端末装置と、を具備したことを特徴とした音声出力制御システムである。

以下、本発明に係る一実施の形態を図面に基づいて説明する。本実施の形態では、本発明の音声出力装置として移動体である例えば車両に搭載される装置構成について例示して説明する。なお、本発明における音声出力装置としては、移動体に搭載される構成の他、例えば家屋などの建造物に設置される構成やロボットなどにも適用できる。また、本実施の形態では、外部音として周囲の発話などの音声について説明するが、これに限らず、車内で発生する各種音や外部から車内に伝播する各種の音などを対象とすることができる。

〔音声出力装置の構成〕
図１は、本発明に係る一実施の形態における音声出力装置の概略構成を示すブロック図である。図２は、記憶手段の音声データ検索テーブルデータベースのテーブル構造の概略構成を示す概念図である。図３は、外部音データから音声データおよび語句情報を抽出する状況を概念的に示す説明図で、（Ａ）は外部音データの音量に基づく波形図、（Ｂ）は抽出された語句情報の語句を示す説明図、（Ｃ）は音声データＡに対する距離に関するスコア値を示す説明図、（Ｄ）は音声データＢに対する距離に関するスコア値を示す説明図、（Ｅ）は音声セグメント情報から抽出される語句情報の数を示す説明図である。図４は、音声データに対する語句の経過距離の係数の設定値を表形式で示す説明図である。図５は、キーワードとして認識した語句の音声データに対応する語句についてのスコア値の演算状況を表形式で示す説明図である。

図において、１００は音声出力装置で、この音声出力装置１００は、移動体としての例えば車両内で発生する音、あるいは車外から車内に伝播する音に対して音声出力するものである。ここで、移動体としては、自動車や電車などの車両に限らず、例えば飛行機や船舶など移動するいずれの移動体にも適用できる。この音声出力装置１００は、例えば車両に搭載された図示しないバッテリから供給される電力により動作する。そして、この音声出力装置１００は、通信手段２００と、操作手段３００と、集音手段４００と、発音手段５００と、音声データ読取手段６００と、音声情報を記録した記録媒体としても機能する記憶手段７００と、メモリ８００と、音声情報生成装置および音声出力制御装置としても機能する演算手段９００と、を備えている。

通信手段２００は、放送波などの無線媒体を受信し外部から入力される音声に関する音声データや、ネットワークを介してサーバ装置などから音声データあるいは音声情報を取得する。具体的には、通信手段２００は、例えば、地上波アナログ放送や地上波デジタル放送あるいは衛星デジタル放送などの放送波を受信する図示しないアンテナが接続されたチューナなどを有し、アンテナからアナログ信号やデジタル信号として送信される音声データを取得する。また、通信手段２００は、例えば、ＴＣＰ／ＩＰなどの汎用のプロトコルに基づくインターネット、イントラネット、ＬＡＮ（Local Area Network）、無線媒体により情報が送受信可能な複数の基地局がネットワークを構成する通信回線網や放送網などのネットワークに接続可能で、これらネットワークを介してサーバ装置や基地局などから音声データや音声情報などを受信して取得する。そして、通信手段２００は、演算手段９００に接続され、取得した音声データや音声情報を演算手段９００へ出力する。

操作手段３００は、入力操作可能な図示しない操作ボタンや操作つまみなどを備えている。そして、操作手段３００は、演算手段９００に接続され、操作ボタンや操作つまみなどの入力操作に応じて所定の操作信号を演算手段９００へ出力し、演算手段９００で入力操作に応じた各種設定項目を入力設定させる。この操作手段３００で設定入力される設定項目としては、例えば、通信手段２００により受信させる情報の特定や発音手段５００での発音状態あるいは音声データ読取手段の動作設定などの音声出力装置１００全体の動作の設定内容の他、語句を設定入力したり、記憶手段７００やメモリ８００に記憶された各種情報の処理や実行を設定入力したり、記憶手段７００やメモリ８００に各種情報を記憶させる設定入力をしたりするなどが例示できる。なお、この操作手段３００としては、操作ボタンや操作つまみなどの入力操作に限らず、例えば別途接続される表示装置に設けられたタッチパネルによる入力操作や、音声による入力操作、リモートコントローラなどの無線媒体を介して信号を出力する構成など、各種設定事項を設定入力可能ないずれの構成が適用できる。

集音手段４００は、音声出力装置１００の周囲である外部の外部音を取得すなわち集音する。この集音手段４００は、例えば車両のダッシュボードに配設されたマイクロフォン４１０を備えている。そして、集音手段４００は、演算手段９００に接続され、マイクロフォン４１０で集音した外部音に関する外部音データを演算手段９００へ出力する。

発音手段５００は、演算手段９００に接続され、演算手段９００から出力される音声データなどを音声として出力する。この発音手段５００は、演算手段９００から出力されるアナログ信号の音声データなどを取得して増幅するなどの処理をする図示しない増幅器と、この増幅器で処理された音声データを音声として出力するスピーカ５１０と、などを備えている。なお、この発音手段５００としては、あらかじめ車両に搭載された構成を利用してもよい。また、発音手段５００は、通信手段２００で受信あるいは音声データ読取手段で読み取られて出力される音声データや音楽データを出力したり、記憶手段７００やメモリ８００に記憶された音声データや音楽データを出力したりする構成としてもよい。

音声データ読取手段６００は、例えば、ＨＤ（Hard Disk）やＦＤ（Flexible Disk）などの磁気ディスク、ＣＤ（Compact Disc）やＤＶＤ（Digital Versatile Disc）などの光ディスク、光磁気ディスク、メモリカード、メモリなどの記録媒体に読み出し可能に記憶するドライブやドライバなどを備え、記録媒体に記憶された音声データや音楽データなどを読み出し、演算手段９００へ出力する。なお、音声データ読取手段６００は、演算手段９００から出力される音声データや音楽データを記録媒体へ記憶させたりする構成を備えていてもよい。また、音声データ読取手段６００としては、例えば通信手段２００と共用の構成として、ＴＶ受像器やラジオ受信機など、放送波を受信して適宜処理し、音声データや音楽データとして演算手段９００へ出力したり、ネットワークを介して音声データや音楽データを取得して演算手段９００へ出力したりしてもよく、ドライブやドライバなどを備えた構成に限らない。

記憶手段７００は、例えば音声データ読取手段６００と同様にドライブやドライバなどを備え、記録媒体に音声情報を複数記録するテーブル構造を記録媒体に構築する。具体的には、記憶手段７００は、音声データデータベース（ＤＢ：Data Base）７１０と、図２に示すような音声データ検索テーブルデータベース７２０と、を備えている。音声データＤＢ７１０は、音声に関する音声データと、この音声データを特定する固有情報である音声データＩＤ（identification）と、を関連付けて１つのデータ構造として備えた複数記憶するテーブル構造に構成されている。この音声データは、例えば発話された文言から抽出された例えば単文や感嘆文、語句などの比較的に短い口語についてのデータである。音声データ検索テーブルＤＢ７２０は、図２に示すように、音声データＩＤ７２１と、他の音声データとしてのテキスト形式の語句に関する語句情報７２２と、音声データＩＤ７２１に対応する音声データの音声である口語および語句情報７２２の語句との親和性となる関連度合いに関する関連度情報７２３と、を関連付けて１つのデータ構造として備えた音声情報７２０Ａを複数記憶するテーブル構造に構成されている。関連度情報７２３は、例えば数値にて表されるスコアについての数値データである。なお、語句情報７２２としては、テキスト形式のデータ構造に限らず、音声データと同様の音声に関するデータやそのデータを特定するＩＤ番号などとして別途音声データを記憶させておく構成とするなどもよく、さらには発話に関する音声データに限らず、例えば踏切や警笛など、音に関するいずれの音声データを対象とすることができる。また、関連度情報７２３は、数値データに限らず、関連度合いに対応して差別化可能ないずれのデータ構造として構成してもよい。そして、記憶手段７００としては、別途接続されるナビゲーション装置で利用される地図情報など、他の情報をも記憶可能に構成されている。

メモリ８００は、操作手段３００で入力操作される設定事項、音声データや音楽データなどの各種データを適宜読み出し可能に記憶する。また、メモリ８００には、音声出力装置１００全体を動作制御するＯＳ（Operating System）上に展開される各種プログラムなどを記憶している。このメモリ８００としては、例えば停電などにより突然電源が落ちた際にも記憶が保持される構成のメモリ、例えばＣＭＯＳ（Complementary Metal-Oxide Semiconductor）メモリなどを用いることが望ましい。なお、メモリ８００としては、ＨＤ、ＤＶＤ、光ディスクなどの記録媒体に読み出し可能に記憶するドライブやドライバなどを備えた構成としてもよい。

演算手段９００は、集音手段４００で集音した外部音に応じて音声を出力させる制御および音声を出力させる音声情報７２０Ａを生成する制御をする。この演算手段９００は、図示しない各種入出力ポート、例えば通信手段２００が接続される通信ポート、操作手段３００が接続される入力ポート、集音手段４００が接続される集音制御ポート、発音手段５００が接続される発音制御ポート、音声データ読取手段６００が接続される読取制御ポート、記憶手段７００が接続される記憶ポート、メモリ８００が接続されるメモリポートなどを有する。そして、演算手段９００は、各種プログラムとして、外部音取得手段９０１と、音特性認識手段９０２と、区切位置認識手段９０３と、テキスト形式変換手段９０４と、語句認識手段としての言語解析手段９０５と、音声データ生成手段９０６と、変更手段としても機能する関連度認識手段９０７と、音声情報生成手段９０８と、語句認識手段としても機能するキーワード認識手段９０９と、音声検索手段９１０と、選出手段９１１と、出力制御手段９１２と、計時手段９１３と、などを備えている。そして、音特性認識手段９０２と、区切位置認識手段９０３と、テキスト形式変換手段９０４と、語句認識手段としての言語解析手段９０５と、音声データ生成手段９０６と、関連度認識手段９０７と、音声情報生成手段９０８とにより、音声を出力させる音声情報７２０Ａを生成する演算手段としての音声情報生成装置としても機能する音声情報生成部９００Ａが構成されている。また、外部音取得手段９０１と、音特性認識手段９０２と、区切位置認識手段９０３と、テキスト形式変換手段９０４と、言語解析手段９０５と、キーワード認識手段９０９と、音声検索手段９１０と、選出手段９１１と、出力制御手段９１２とにより、外部音に応じて音声を出力させる音声出力制御装置として機能する音声データ出力制御部９００Ｂが構成されている。

外部音取得手段９０１は、集音手段４００で集音した外部音に関し出力される一連の外部音データを取得する。具体的には、外部音取得手段９０１は、図３（Ａ）に示すような一連の波形図となる外部音データを取得する。この波形図としては、アナログ信号あるいはデジタル信号など、いずれのデータ形式で取得可能に構成されている。

音特性認識手段９０２は、外部音取得手段９０１で取得した外部音データの音特性を認識する。例えば、音特性認識手段９０２は、音特性としての音量に基づく波形で外部音データを認識する。

区切位置認識手段９０３は、音特性認識手段９０２で認識した音特性である音量に基づいて、所定の音量以下、ノイズや雑音などを考慮して発話がない状態の音量レベル、いわゆる無音部分を認識する。そして、区切位置認識手段９０３は、図３中に点線で示すように、認識した無音部分を外部音データが区切られる区切位置として設定する。さらに、区切位置認識手段９０３は、外部音取得手段９０１で取得した外部音データを、認識した区切位置で分割し、音声セグメント情報を生成する。

テキスト形式変換手段９０４は、区切位置認識手段９０３で生成した各音声セグメント情報を、それぞれテキスト形式に変換して音声テキスト情報を生成する。この生成した音声テキスト情報は、それぞれ対応する音声セグメント情報と関連付けられてメモリ８００などに一時的に記憶される。

言語解析手段９０５は、テキスト形式変換手段９０４で生成される各音声テキスト情報を、それぞれ形態素解析や構文解析などの言語解析を実施する。具体的には、図３（Ｂ）に示すように、音声セグメント情報から語句を認識し、各語句に関する語句情報７２２を生成する。

音声データ生成手段９０６は、言語解析手段９０５にて実施した言語解析により、各音声テキスト情報が単文や感嘆文、あるいは疑問文直後の一言、または語句などの比較的に短い口語か否かを判断、例えば図３（Ｂ）に示すように、言語解析手段９０５で生成する語句情報７２２が１つだけか複数かを判断する。そして、音声データ生成手段９０６は、音声テキスト情報が短い口語であると判断すると、その音声テキスト情報が関連付く音声セグメント情報を音声データとして生成する。このように、音声データは、区切位置間における外部音データの一部の音声が抽出されて生成される。そして、生成された音声データは、新たに音声データＩＤ７２１が設定され、この音声データＩＤ７２１が１つのデータ構造に関連付けられて記憶手段７００の音声データＤＢ７１０に記憶される。

関連度認識手段９０７は、音声データ生成手段９０６で生成された音声セグメント情報である音声データに対して、外部音データの時系列における前に位置する他の音声データとなる他の音声セグメント情報の音声テキスト情報を構成する各語句との関連度合いを演算して関連度情報７２３を生成する。具体的には、関連度認識手段９０７は、音声データの口語に対して、他の音声セグメント情報の音声テキスト情報を言語解析手段９０５で言語解析により抽出された各語句情報７２２の語句の親和性となる関連度合いを数値にて認識する。この関連度合いの演算としては、音声データとの関連度合いが演算される対象となる語句と音声データとの距離、例えば音声データから語句までに遡る時間である時間経過を関連度合いとして演算する。

この経過時間の演算は、例えば、音声データの音声セグメント情報に対して、外部音データの時系列における他の音声セグメント情報までの距離すなわち他の音声セグメント情報の数と、各音声セグメント情報を構成する語句の数と、に基づいて演算する。具体的には、図３（Ｃ），（Ｄ）に示すように、直前の音声セグメント情報が最も高いスコアとなり遠くなる音声セグメント情報の数にしたがって値が小さくなるスコア値をあらかじめ設定する。すなわち、音声として出力させる音声データが、図３（Ｂ）に示すような「そうみたいよ」である場合には、その前に位置する音声セグメント情報である「あっちがパレットシティなの」に、「そうみたいよ」の音声データに対する関連度合いとして図３（Ｃ）に示すように３点がスコア付けされ、さらにその前の音声セグメント情報では２点、１点とスコア付けされる。同様に、音声として出力させる音声データが、図３（Ｂ）に示すような「マジで」である場合には、その前に位置する音声セグメント情報である「お台場の観覧車ってでっかくてキラキラしてるんやね」に、「マジで」の音声データに対する関連度合いとして図３（Ｄ）に示すように３点がスコア付けられ、さらにその前の音声セグメント情報である「そうみたいよ」には２点、さらにその前の「あっちがパレットシティなの」には１点がスコア付けされる。なお、このスコア付けの演算の他、以下の数１に示す式に基づいて演算してスコア付けしたり、数１の式で演算した値を図４に示すようにスコア値としてあらかじめ設定したりしてもよい。なお、図３（Ｃ），（Ｄ）は、３個前までの音声セグメント情報を対象として、音声セグメント情報毎に１点ずつ値が小さくなる状態に設定したスコア値を例示している。

（数１）
Ｓ＝ｌｏｇ₁₀Ｘ
Ｓ：時間経過のスコア値
Ｘ：対象の音声セグメント情報までの数（自然数）

また、音声セグメント情報を構成する語句の数によるスコア値は、例えば、図３（Ｅ）に示すように音声セグメント情報毎で言語解析により生成された語句情報７２２の数を認識し、数が多くなるにしたがってスコアの値が小さくなるように設定される。具体的には、音声セグメント情報の数に基づいて設定されたスコア値から語句情報７２２の数を除算し、各語句情報７２２のスコア値を演算する。この語句毎で演算したスコア値が、音声データの口語に対する関連度合いとして設定される。

なお、経過時間としては、単に対象となる語句までの語句の数や時間長に反比例してスコアの値が小さくなるように演算するなどしてもよい。さらに、関連度合いとしては、経過時間の概念に限らず、例えば構文解析による会話の応答関係によりスコア付けしたり、語句の品詞やアクセント、波形に基づく語尾の抑揚などに基づいてスコア付けしたり、語句の組み合わせにおける過去の出現頻度すなわち語句の組み合わせを履歴して出現する数に比例してスコア付けしたりするなどしてもよく、これら例示した方法と上記例示の方法とを適宜組み合わせるなどしてもよい。

音声情報生成手段９０８は、音声データに語句情報７２２が関連度情報７２３とともに１つのデータ構造に関連付けられた音声情報７２０Ａを生成する。すなわち、音声情報生成手段９０８は、音声データに対して関連度認識手段９０７で認識した関連度合いとなる語句の語句情報７２２を、その関連度情報７２３とともに音声データの音声データＩＤ７２１に図２に示すように１つのデータ構造に関連付け、音声情報７２０Ａを生成する。そして、生成した音声情報７２０Ａは、記憶手段７００の音声データ検索テーブルＤＢ７２０に記憶される。この生成した音声情報７２０Ａの記憶の際、音声データおよび語句情報７２２の組み合わせが同じ音声情報７２０Ａが既に記憶されている場合、音声情報生成手段９０８は、既に記憶されている音声情報７２０Ａの関連度情報７２３に、今回演算した関連度情報７２３を反映させる。例えば、以下の数２に示す式に基づいて関連度合いを再演算し、得られた関連度情報７２３を更新する処理をする。なお、この数２に示す出現頻度を考慮した演算方法に限らず、既に記憶されている関連度情報７２３のスコアと新たに生成した音声情報７２０Ａの関連度情報７２３のスコアとの平均を単に演算する出現頻度を考慮しない演算方法などでもよい。さらには、新たに生成した音声情報７２０Ａで更新するなど、過去の関連度情報７２３を考慮せずにそのまま記憶させる構成などとしてもよい。

（数２）
Ｖ＝（Ｖ₀×ｎ／（ｎ＋１））＋（Ｖ₁×１／（ｎ＋１））
Ｖ：再演算した関連度合い
Ｖ₀：記憶されている音声情報７２０Ａの関連度情報７２３の関連度合い
Ｖ₁：新たに生成した音声情報７２０Ａの関連度情報７２３の関連度合い
ｎ：過去に出現した音声データおよび語句情報７２２の組み合わせの回数（出現頻度）

キーワード認識手段９０９は、集音している発話状況に基づいて、音声データを音声出力させるためのキーワードを認識する。すなわち、キーワード認識手段９０９は、集音している外部音データから言語解析手段９０５で認識した語句情報７２２に基づいて、記憶手段７００の音声データ検索テーブルＤＢ７２０に記憶した各音声情報７２０Ａの語句情報７２２の語句と同一のキーワードとなる語句が外部音データ中に出現するか否かを判断する。そして、キーワード認識手段９０９は、キーワードとなる語句を認識すると、キーワードが発話された旨の信号を出力する。この信号としては、キーワードとして認識した語句を特性する情報が含まれている。すなわち、所定の語句を検出した旨の信号である。

音声検索手段９１０は、キーワード認識手段９０９で認識した語句に対応する音声情報７２０Ａを、記憶手段７００の音声データ検索テーブルＤＢ７２０から検出する。この検出した音声情報７２０Ａは、例えばメモリ８００に適宜記憶される。

選出手段９１１は、音声検索手段９１０で検索された音声情報７２０Ａの関連度情報７２３に基づいて、所定の音声情報７２０Ａの音声データを選出する。すなわち、選出手段９１１は、スコア演算手段９１１Ａと、音声データ選出手段９１１Ｂと、を備えている。

スコア演算手段９１１Ａは、検索された音声情報７２０Ａの音声データ毎に関連度合いを集計、すなわち、同一の口語となる音声データのスコアの値を合算する演算をし、スコアに関するスコア情報を生成する。例えば、図５に示すように、スコア演算手段９１１Ａは、外部音データにおける計時手段９１３で計時する現時点から音声検索手段９１０で検索した音声情報７２０Ａの語句情報７２２に対応する語句の位置までの時間長が長くなるにしたがって、関連度情報７２３の関連度合いのスコアの値を小さくする演算をする。この時間長が長くなるにしたがってスコア値を小さくする演算としては、関連度合いのスコアの値から、上述した関連度認識手段９０７により関連度合いを設定する際に利用する経過時間の演算方法、例えば数１で演算された値を減算する演算をする。さらに、スコア演算手段９１１Ａは、経過時間を考慮したスコア値を同一の口語となる音声データ毎に合算し、現在時点でのその音声データのスコア値としてスコア情報を生成する。なお、このスコア情報は、音声データに直接関連付けてもよいが、演算処理負荷を考慮して音声データＩＤ７２１に関連付けておくとよい。また、時間長である経過時間に基づいてスコア値を演算する構成に限らず、外部音データにおける現時点から音声検索手段９１０で検索した音声情報７２０Ａの語句情報７２２に対応する語句の位置までの語句の数が多くなるにしたがってスコア情報のスコアの値を小さくする演算、例えばあらかじめ数に対応して設定された設定値を除算する演算をするなどしてもよい。

音声データ選出手段９１１Ｂは、スコア演算手段９１１Ａで順次演算されるスコア情報のスコアの値に基づき、所定の音声データを選出する。例えば、音声データ選出手段９１１Ｂは、スコア情報のスコア値が最も高い音声データを音声出力候補として選出する。この選出された音声データは、メモリ８００などに適宜記憶される。なお、この音声データの記憶は、直接音声データを記憶してもよいが、上述したように、演算処理負荷を考慮して、音声データＩＤ７２１を記憶させておくとよい。

出力制御手段９１２は、選出手段９１１で選出された音声データを発音手段５００のスピーカ５１０から音声として出力させる制御をする。例えば、出力制御手段９１２は、外部音データにおける区切位置を認識すると、メモリ８００に記憶されている音声データＩＤ７２１に対応する音声データを記憶手段７００から読み取ってアナログ信号に適宜変換するなどの処理をし、発音手段５００へ出力する。この区切位置を認識して出力させる際、出力制御手段９１２は、区切位置の区間となる時間長が１〜２秒以上、好ましくは２秒以上であるかを否かを判断し、１〜２秒以上であると判断した場合に音声データを出力させる制御をし、区切位置の時間長が短い場合にはその音声データを出力させない。なお、この次の区切位置を認識するまでには、少なくとも１つの音声セグメント情報が生成されることから、それまで演算された関連度合いに関するスコア値がスコア演算手段により再演算されることとなり、メモリ８００に別の音声データＩＤ７２１が置換されている可能性がある。このため、出力制御手段９１２は、１〜２秒以上の区間となる区切位置を認識した時点でメモリ８００から音声データＩＤ７２１を取得して、音声出力させる制御を実施する。そして、音声出力させる制御としては、例えば米ＭＭＡ（MIDI Manufacturers Association）と日本ＭＩＤＩ評議会（Japan MIDI Standards Committee：ＪＭＳＣ）とにより規格化されたＧＭ（General MIDI）規格、あるいはＧＳ（General Standard）規格、またはＸＧ（Extended General MIDI）規格、さらにはＧＭレベル２規格などに基づくＭＩＤＩメッセージを利用するなどしてもよい。

計時手段９１３は、例えば内部クロックなどの基準パルスに基づいて現在時刻を認識する。そして、この計時手段９１３は、認識した現在時刻に関する時刻情報を適宜出力する。

〔音声出力装置の動作〕
次に、上記音声出力装置１００の動作を図面に基づいて説明する。なお、音声情報７２０Ａの生成処理と、外部音に応じて音声を出力させる音声出力処理とは、同時に処理できるが、説明の都合上、分けて説明する。図６は、音声出力装置における音声情報の生成処理の動作を示すフローチャートである。図７は、音声出力装置における音声出力処理の動作を示すフローチャートである。

（音声情報の生成処理）
車両に搭乗した利用者がキー操作により車両のアクセサリ電源を投入することにより、車両のバッテリから音声出力装置１００に電力が供給される。この電力の供給により、音声出力装置１００は、演算手段９００は図示しない表示装置にメニュー画面などを表示させる処理をし、操作手段３００からの入力操作に基づく動作要求の設定の待機状態、すなわち動作待機状態となる。そして、演算手段９００は、メニュー画面に基づく操作手段３００からの音声情報７２０Ａの生成処理要求の信号を認識すると（ステップＳ１０）、例えば音声情報７２０Ａの生成方法が手動によるものか自動によるものかの選択入力を促す画面表示を表示装置に表示させる制御をする（ステップＳ１１）。

そして、ステップＳ１１において、手動による音声情報７２０Ａの生成処理要求を認識すると、演算手段９００は音声データを取得する処理をする（ステップＳ２０１）。この音声データの取得処理としては、例えばいずれの方法で音声データを取得するかの取得方法の操作手段３００による設定入力を促す画面表示をしたり、音声データを格納する機器やサーバなどの配信元を特定する操作手段３００による設定入力を促す画面表示などをしたりする制御をし、設定された取得方法で取得したり特定された配信元から音声データを取得する処理をする。

具体的には、例えば所定の音声に関する配信データを配信するサーバ装置や各種放送番組から配信データを受信して音声データを取得する場合、演算手段９００は、通信手段２００を制御してサーバ装置からネットワークを介して所望の音声の配信データを受信させ、外部音取得手段９０１で外部音データとして取得させて記憶手段７００に記憶させるとともに、出力制御手段９１２にてスピーカ５１０から出力させる処理をする。そして、利用者がスピーカ５１０から音声出力される状況を認識しつつ操作手段３００の操作により出力される音声から音声データとして切り出す開始位置と終了位置とを設定すると、区切位置認識手段９０３が配信データにおける開始位置と終了位置とを認識し、音声データ生成手段９０６が開始位置および終了位置間の配信データを音声データとして生成する。なお、記憶手段７００に記憶した配信データは、入力操作に基づいて削除したり、音声データを生成後に自動的に削除したりすればよい。

また、例えば光ディスクなどの着脱可能な記録媒体に記録された音声に関する記録データから音声データを取得する場合、演算手段９００は、音声データ読取手段６００を動作させ、所定の記憶データを読み取らせる。そして、上述した配信データから抽出する場合と同様に、入力設定された開始位置および終了位置に基づいて音声データ生成手段９０６により音声データを生成する。なお、記憶手段７００やメモリ８００に別途記憶された記憶データから抽出する場合も同様に、記憶手段７００やメモリ８００から記憶データを読み取って抽出すればよい。これらのように、ステップＳ２０１において、音声データ生成手段９０６により生成された音声データは、新たに音声データＩＤ７２１が設定され、この音声データＩＤ７２１と関連付けられて１つのデータ構造で記憶手段７００の音声データＤＢ７１０に記憶される。

このステップＳ２０１の後、演算手段９００は、例えば生成した音声データを出力させるための関連する語句の設定を促す旨の画面表示を表示装置に表示する。具体的には、入力操作に基づいて、操作手段３００による入力操作にてテキスト入力可能なテキストボックスを有する画面表示を表示させ、この画面表示に基づいてテキスト入力された語句を言語解析手段９０５が語句情報７２２として生成する（ステップＳ２０２）。この生成された語句情報７２２は、メモリ８００に適宜記憶される。

さらに、ステップＳ２０２の後、演算手段９００は、例えばステップＳ２０１で生成した音声データの口語とステップＳ２０２で生成した語句情報７２２の語句との関連度合いの設定を促す旨の画面表示を表示装置に表示する。具体的には、入力操作に基づいて、操作手段３００による入力操作にて数値入力可能なテキストボックスを有する画面表示を表示させ、この画面表示に基づいて数値入力された値を関連度認識手段９０７が関連度合いのスコアと認識して関連度情報７２３を生成する（ステップＳ２０３）。この生成された関連度情報７２３は、メモリ８００に適宜記憶される。

この後、音声情報生成手段９０８は、メモリ８００に記憶された音声データに対応した音声データＩＤ７２１と、語句情報７２２と、関連度情報７２３とを１つのデータ構造に関連付けて音声情報７２０Ａを生成する（ステップＳ２０４）。そして、音声情報生成手段９０８は、生成した音声情報７２０Ａを記憶手段７００の音声データ検索テーブルＤＢ７２０に記憶させる（ステップＳ２０５）。この後、演算手段９００は、新たに他の音声情報７２０Ａの生成を確認、すなわち音声情報７２０Ａの生成処理の継続か否かの操作手段３００による設定入力を促す画面表示を表示装置に表示、すなわち処理の継続か否かを判断する処理をする（ステップＳ２０６）。このステップＳ２０６で処理の継続を要求する旨の入力操作を認識すると、ステップＳ２０１に戻って、手動による音声情報７２０Ａの生成処理を継続する。一方、ステップＳ２０６で処理を継続しないすなわち終了を要求する旨の入力操作を認識すると、音声情報７２０Ａを生成する処理を終了する。

一方、ステップＳ１１において、自動による音声情報７２０Ａの生成処理要求を認識、例えば自動処理を設定する入力操作あるいは外部音に対する音声の出力処理と平行して音声情報７２０Ａを生成する処理を実施させる入力操作などを演算手段９００が認識すると、演算手段９００は集音手段４００を制御してマイクロフォン４１０にて車内の外部音を集音させる（ステップＳ３０１）。このステップＳ３０１における集音処理により、演算手段９００の外部音取得手段９０１がマイクロフォン４１０で集音する外部音に対応する信号を、図３（Ａ）に示すように一連の外部音データとして取得する。この後、演算手段９００は、音特性認識手段９０２により外部音取得手段９０１で取得した外部音データの音特性、例えば音量の大きさを認識、すなわち一連の外部音データの音量を順次監視する（ステップＳ３０２）。

このステップＳ３０２における音特性認識手段９０２での認識する音量が、所定の音量以下、すなわちいわゆる無音となったことを区切位置認識手段９０３により認識すると、区切位置認識手段９０３は無音区間を区切位置として認識し、順次取得している外部音データを区切位置で分割して音声セグメント情報を生成する（ステップＳ３０３）。なお、音声セグメント情報は、連続して切り出した少なくとも４つ分以上をメモリ８００に記憶される。そして、演算手段９００は、テキスト形式変換手段９０４により、区切位置認識手段９０３で順次生成する音声セグメント情報をテキスト形式に変換して音声テキスト情報を生成する。さらに、演算手段９００は、言語解析手段９０５により、生成された音声テキスト情報を形態素解析や構文解析などの言語解析を実施し、例えば図３（Ｂ）に示すように、音声セグメント情報に含まれる語句を認識し、これら語句に関する語句情報７２２を生成する（ステップＳ３０４）。これら生成された語句情報７２２は、音声セグメント情報と関連付けられてメモリ８００に合わせて記憶される。

そして、演算手段９００は、音声データ生成手段９０６により、順次生成される音声テキスト情報と語句情報７２２とに基づいて、言語解析により音声テキスト情報から抽出される語句が１つだけとなる音声セグメント情報を認識し、その音声セグメント情報を音声データとする（ステップＳ３０５）。そして、音声データ生成手段９０６は、設定した音声データに新たに音声データＩＤ７２１を関連付けて記憶手段７００の音声データＤＢ７１０に記憶させる。

このステップＳ３０５における音声データの生成処理の後、この音声データの直前から少なくとも３つ前までに切り出された音声セグメント情報から抽出された語句情報７２２の語句と、ステップＳ３０５で生成した音声データの口語である語句との関連度合いを関連度認識手段９０７により認識する（ステップＳ３０６）。すなわち、音声データまでの外部音データにおける経過時間の長さとなる音声データに対して音声セグメント情報が外部音データの時系列で前に位置する数を計数する。具体的には、図３（Ｃ），（Ｄ）に示すように、音声データに対して直前に位置する音声セグメント情報に対しては３点、２つ前では２点、３つ前では１点のスコア値を、対応する音声セグメント情報に関連付けるスコア付けの処理をする。さらに、関連度認識手段９０７は、図３（Ｅ）に示すように、スコア付けされた各音声セグメント情報から抽出された語句情報７２２の数を計数する。そして、関連度認識手段９０７は、各音声セグメント情報に関連付けられたスコア値を計数した語句情報７２２の数で除算し、この除算により得られた値を語句情報７２２の関連度合いとして関連度情報７２３を生成する。

このステップＳ３０６における関連度合いの認識処理の後、演算手段９００は、音声情報生成手段９０８により音声データに対応する音声データＩＤ７２１に、その音声データに対応する語句情報７２２および関連度情報７２３を１つのデータ構造に関連付けて音声情報７２０Ａを生成する（ステップＳ３０７）。そして、音声情報生成手段９０８は、生成した音声情報７２０Ａを記憶手段７００の音声データ検索テーブルＤＢ７２０に記憶させる（ステップＳ３０８）。このステップＳ３０８の記憶処理の際、音声データおよび語句情報７２２の組み合わせと同じ音声情報７２０Ａが既に記憶されている場合、音声情報生成手段９０８は、既に記憶されている音声情報７２０Ａの関連度情報７２３に、今回演算した関連度情報７２３を反映、例えば数２の式に基づいて関連度合いを再演算し、新たな関連度情報７２３を更新する処理をする。この後、演算手段９００は、音声情報７２０Ａの自動生成処理の中止を要求する旨を認識したか否かを判断する（ステップＳ３０９）。そして、このステップＳ３０９で中止要求がないと判断した場合にはステップＳ３０１に戻って音声情報７２０Ａの自動生成処理を継続し、中止要求があると判断した場合には音声情報７２０Ａを生成する処理を終了する。

（音声出力処理）
一方、演算手段９００の待機状態で、例えばメニュー画面に基づく操作手段３００からの外部音に対する音声の出力要求の信号を認識すると（ステップＳ４０１）、演算手段９００は、集音手段４００を制御してマイクロフォン４１０にて車内の外部音を集音させる（ステップＳ４０２）。このステップＳ４０２における集音処理により、演算手段９００の外部音取得手段９０１がマイクロフォン４１０で集音する外部音に対応する信号を、図３（Ａ）に示すように一連の外部音データとして取得する。この後、演算手段９００は、音特性認識手段９０２により外部音取得手段９０１で取得した外部音データの音特性、例えば音量の大きさを認識、すなわち一連の外部音データの音量を順次監視する（ステップＳ４０３）。

このステップＳ４０３における音特性認識手段９０２での認識する音量が、所定の音量以下、すなわちいわゆる無音となったことを区切位置認識手段９０３により認識すると、区切位置認識手段９０３は無音区間を区切位置として認識し、順次取得している外部音データを区切位置で分割して音声セグメント情報を生成する（ステップＳ４０４）。これら生成された音声セグメント情報は、メモリ８００に適宜記憶される。なお、この記憶される数は、例えば１０個程度とある程度の数にあらかじめ設定した数に限ってもよい。このことにより、メモリ８００の負荷や処理負荷の低減が図れる。

このステップＳ４０４における音声セグメント情報の生成処理の後、演算手段９００は、キーワード認識手段９０９により、記憶手段７００の音声データ検索テーブルＤＢ７２０に記憶した各音声情報７２０Ａの語句情報７２２の語句と同一のキーワードとなる語句が外部音データ中に出現するか否かを判断、すなわち、外部音データの言語解析により（ステップＳ４０５）、キーワードの外部音データの出現を監視する（ステップＳ４０６）。そして、このステップＳ４０５においてキーワードを認識すると、音声検索手段９１０により記憶手段７００の音声データ検索テーブルＤＢ７２０からキーワードとなる語句の語句情報７２２を有した音声情報７２０Ａを検出する（ステップＳ４０７）。

このステップＳ４０７の後、演算手段９００は、選出手段９１１により、検出した音声情報７２０Ａのうち、関連度情報７２３に基づいて、所定の音連度合いとなる語句の組み合わせとなる音声情報７２０Ａを選出する。すなわち、選出手段９１１のスコア演算手段９１１Ａにより、計時手段９１３で計時する外部音データにおける現時点から、音声検索手段９１０で検索した音声情報７２０Ａの語句情報７２２に対応する語句の位置までの距離、すなわち時間長の長さを認識する（ステップＳ４０８）。この時間長の長さとして、スコア演算手段９１１Ａは、例えばその語句情報７２２の音声セグメント情報におけるキーワードの語句が含まれる音声セグメント情報からの数を認識する。そして、スコア演算手段９１１Ａは、上述した例えば数１の式に基づいて、経過時間の係数である経過時間のスコア値Ｓを演算し、各音声情報７２０Ａの関連度情報７２３の関連度合いのスコア値から減算する。さらに、スコア演算手段９１１Ａは、経過時間を考慮したスコア値を同一の口語となる音声データ毎に合算し、現在時点でのキーワードとして認識した語句に対応する音声データのスコア値としてスコア情報を生成する。このステップＳ４０８におけるキーワードからの語句の距離の認識処理により演算されたスコア情報のスコア値に基づき、演算手段９００は、音声データ選出手段９１１Ｂにより、スコア情報のスコア値が最も高い音声データを音声出力候補として選出し、その音声データＩＤ７２１に対応する音声データＩＤ７２１をメモリ８００に適宜記憶する（ステップＳ４０９）。

このステップＳ４０９の後、演算手段９００は、出力制御手段９１２により、区切位置認識手段９０３で区切位置の区間となる時間長が１〜２秒以上となったか否かを判断する（ステップＳ４１０）。そして、このステップＳ４１０において、区切位置の時間長が１〜２秒以上経過していないと判断した場合、音声データを読み取ることなく、音声出力処理の中止を要求する旨を認識したか否かを判断する（ステップＳ４１１）。そして、このステップＳ４１１で中止要求がないと判断した場合にはステップＳ４０２に戻って、処理を継続する。一方、ステップＳ４１１において、音声出力処理の中止要求があると判断した場合には外部音に対する音声を出力させる処理を終了する。

また、ステップＳ４１０において、出力制御手段９１２が区切位置認識手段９０３で区切位置の区間となる時間長が１〜２秒以上となったことを認識すると、メモリ８００に記憶されている音声データＩＤ７２１に対応する音声データを記憶手段７００から読み取ってアナログ信号に適宜変換するなどの処理をし、発音手段５００へ出力する（ステップＳ４１２）。

ここで、外部音データから区切位置認識手段９０３で、例えば図５（Ａ）に示すような「そう言えばお台場の」の音声セグメント情報および「パレットシティ」の音声セグメント情報に分解された場合について説明する。まず、外部音データから区切位置認識手段９０３により「そう言えばお台場の」の音声セグメント情報が切り出され、言語解析手段９０５で［そう言えば］、［お台場の］の語句情報７２２が抽出される。そして、キーワード認識手段９０９により各語句情報７２２の語句をキーワードとして認識した場合、そして、音声検索手段９１０により、「そう言えば」に対して、「何ですか？」の音声データと、「聞きたくない！」の音声データと、「急がないよ」の音声データとがそれぞれ関連付けられた３つの音声情報７２０Ａが検索され、「お台場の」に対して、「綺麗〜っ！」の音声データと、「マジで！」の音声データとがそれぞれ関連付けられた２つの音声情報７２０Ａが検索される。そして、スコア演算手段９１１Ａが各音声情報７２０Ａの関連度情報７２３を認識する。この際、次の音声セグメント情報がまだ認識されていない、すなわち次の区切位置がまだ認識されておらず、「パレットシティ」の音声セグメント情報が抽出されていないので、「そう言えばお台場の」の音声セグメント情報は現時点に対して直近となる。このことにより、スコア演算手段９１１Ａは、各音声情報７２０Ａの語句情報７２２における数１に基づく時間経過の係数Ｓの値が「０」となり、関連度情報７２３のスコア値で音声データ選出手段９１１Ｂが最も関連度合いの高い「綺麗〜っ！」の音声データを音声出力候補として選出する。

そして、出力制御手段９１２により、現在認識している区切位置の時間長が１〜２秒を経過したと認識すると、「綺麗〜っ！」の音声データが出力される。ここで、区切位置の時間長が１〜２秒を経過していないと判断、すなわち次の「パレットシティ」を認識していることとなる。そして、次の区切位置を認識して「パレットシティ」の音声セグメント情報が切り出されると、この「パレットシティ」の音声セグメント情報からは分解されずにそのまま［パレットシティ］が語句情報７２２として認識される。そして、キーワード認識手段９０９が［パレットシティ］をキーワードとなる語句として認識すると、音声検索手段９１０により「パケットシティ」に対して「マジで！」の音声データが関連付けられた音声情報７２０Ａが検索される。そして、スコア演算手段９１１Ａが各音声情報７２０Ａの関連度情報７２３に、現時点までの時間経過を反映させる。具体的には、［パレットシティ］は現時点に対して直近となるので係数Ｓは「０」であるが、［そう言えば］および［お台場の］の語句情報７２２は一つ前の音声セグメント情報であることから、時間経過の係数Ｓが数１から演算され、この演算された係数Ｓとなる「０．３０」を各関連度合いのスコア値から減算する。さらに、スコア演算手段９１１Ａは、同一の語句となる音声データ「マジで！」のスコア値を集計し、スコア情報とする。このことにより、それまでは、「綺麗〜っ！」の音声データが一番スコア値が高かったが、時間経過により現時点での関連度合いが低くなるのに対し、現時点では「マジで！」が最も高い関連度合いとなり、音声出力候補として「綺麗〜っ！」から「マジで！」に更新される。このようにして、発話における現時点で、発話に対して最も関連度合いが高い語句が選出され、音声出力される状態となる。

そして、ステップＳ４１２で音声データを出力させる処理の後、演算手段９００は、関連度認識手段９０７により、音声出力させた音声データの音声セグメント情報に対して外部音データにおける時系列で後に位置する外部音データでの音声データの内容についての評価を認識し、この評価に対応して音声出力させた音声データの音声情報７２０Ａの関連度合いを変更する処理をする。具体的には、外部音データの音特性に基づいて笑い声を認識したり、言語解析により例えば「いいね」、「面白い」、「笑える」などの音声出力を肯定する内容を認識したりするなどにより、評価として良好であったか否かを判断する（ステップＳ４１３）。そして、ステップＳ４１３で、関連度認識手段９０７は、評価が良好であったと判断した場合、その音声出力させた音声情報７２０Ａの関連度情報７２３のスコア値をあらかじめ設定された設定値を加算するなどにより高い値に設定して音声情報７２０Ａを更新する処理をし（ステップＳ４１４）、ステップＳ４１１に進む。一方、ステップＳ４１３で、例えば無音が継続したり、言語解析により「つまらない」、「鬱陶しい」、「邪魔」などの否定する内容を認識したりするなどにより、評価として悪かったと判断した場合、その音声情報７２０Ａの関連度情報７２３のスコア値をあらかじめ設定された設定値で減算するなどにより低い値に設定して音声情報７２０Ａを更新する処理をし（ステップＳ４１５）、ステップＳ４１１に進む。なお、評価に対応してスコア値を変更する処理として、あらかじめ設定された設定値を加減算する構成に限らず、例えば笑い声の大きさが大きくなるにしたがって、あるいは肯定する言語の数が多くなるにしたがって加算するスコア値の値が大きくなったり、変数や係数を用いて加減算以外の演算を実施したりするなどしてもよい。

〔音声出力装置の作用効果〕
上述したように、上記実施の形態では、集音した外部音に関する一連の外部音データの音特性を認識し、この音特性に基づいて外部音データが区切られる区切位置を認識し、区切位置の間における音声セグメント情報である外部音データの一部を音声に関する音声データとして生成する。そして、生成した音声データに対して外部音データにおける前後に位置する音声セグメント情報から抽出された語句情報７２２との関連度合いを演算して関連度情報７２３を認識し、音声データと語句情報７２２およびその語句情報７２２の語句の関連度合いに関する関連度情報７２３とを関連付けて１つのデータ構造の音声情報７２０Ａを生成している。

このため、その車両内の発話における語句に対して出力させる音声として、その発話から抽出した音声データに基づいて音声情報７２０Ａを生成しているので、この音声情報７２０Ａを利用して外部音に対して音声データを出力させる構成では、発話の内容の流れに伴った関連度合いで音声データが音声出力され、発話に対して茶々が入る状態となり、出力される音声を切っ掛けに発話が容易促進される。このことにより、良好な運転環境が容易に得られる。さらに、発話の流れに伴わない全く関係のない音声は出力されないので、発話が阻害されず、良好な発話環境を提供できる。

そして、特に発話に基づく外部音データから音声データを抽出している。このため、例えば機械音などの発話の流れに対応しない音声データを出力しないので、より発話が阻害されず、良好な発話環境が得られる。

そして、関連度合いが最も高い値となる音声データを音声出力している。このため、最も発話の流れにおける現時点で最も関連する音声がいわゆる茶々として出力されるので、良好に発話の喚起が得られる。

さらに、外部音データの音量に基づいて音声データや語句情報７２２の基となる音声セグメント情報を切り出している。このため、語句毎に外部音データを切り出す場合に比して、より発話の流れに沿った関連度合いで音声データに語句情報７２２を関連付けることができ、外部音に対して適切な音声を出力でき、良好な発話環境を提供できる。

また、外部音データが区切られる位置となる音声データや音声セグメント情報の切り出す位置、すなわち発話の流れの区切れる位置として、所定の音量以下となるいわゆる無音部分を認識している。このため、発話の流れに沿った音声データや音声セグメント情報を容易に抽出でき、良好な発話環境を提出するための音声情報７２０Ａを容易に生成できる。また、外部音データを音量に基づく波形として認識すればよく、構成の簡略化を容易に図れる。

さらに、音声セグメント情報から音声テキスト情報を生成し、この音声テキスト情報を形態素解析や構文解析などの言語解析により語句を認識し、この語句を音声データを出力させるためのキーワードとして関連付けて音声情報７２０Ａを生成している。このため、容易に外部音に対して、いわゆる茶々を入れる音声を適切に出力できる音声情報７２０Ａを容易に生成できる。

そして、関連度認識手段９０７により音声データに対する関連度合いとして、音声データまでの距離、すなわち時間長や音声セグメント情報の数に基づいて設定している。このため、現時点で発話に対して出力させようとする音声データを選出するためのキーワードとなる語句との適切な関連度合いを設定できる。したがって、発話に対して良好に関連する音声を出力できる。特に、時間長や語句の数により、発話の流れに対していわゆる茶々を入れるタイミングでの適切な音声データを選出するための関連度合いを容易に設定でき、音声情報７２０Ａの設定が容易にできる。

さらには、関連度認識手段９０７は、音声データに対する距離に対応した関連度合いのスコア値を、その音声セグメント情報の語句情報７２２の数で除算している。すなわち、音声セグメント情報に複数の語句情報７２２が存在する場合にその後に発話される語句となる音声データに対する関連度合いは、語句情報７２２の数の分だけ薄れることとなるので、より適切に音声データに対する関連度合いを設定できる。

また、音声情報７２０Ａとして音声データを特定する音声データＩＤ７２１に語句情報７２２および関連度情報７２３を関連付けて音声情報７２０Ａを生成している。このため、集音している外部音データから認識した語句に対応する音声情報７２０Ａを比較的に小さい負荷で検索でき、音声情報７２０Ａの検索速度の高速化が容易に図れ、外部音に対する音声の良好な出力が得られる。さらには、音声情報７２０Ａのデータ量が小さくなり、記憶手段７００のテーブル構造の構築や保守管理が容易にできる。

さらに、音声情報７２０Ａの関連度情報７２３のスコア値を音声データの口語と語句情報７２２の語句との組み合わせの出現頻度を利用することで、より対話の流れに対応した音声をいわゆる茶々として出力させることができる。

また、関連度情報７２３として、音声出力したのちの音声に対する利用者や対話している人の出力された音声に対する評価に基づいてスコア値を変更している。このため、より利用者の嗜好に沿った音声出力が得られる。

さらに、音声出力に対する評価として、笑い声や言語解析による肯定する語句の検索などにより評価内容を認識している。このため、容易に評価を認識でき、構成の簡略化が容易に図れる。

そして、出力制御手段９１２により、集音している外部音データの所定の音量以下となるいわゆる無音期間が所定時間経過したことを認識すると、選出した音声情報７２０Ａの音声データを出力させる制御をしている。このため、例えば対話している最中に頻繁に音声データが出力される煩わしさを防止できる。さらには、無音期間が２秒以上経過したことを認識した際に音声データを出力させることで、出力される音声データを切っ掛けとして対話が開始されることとなり、対話の促進も得られる。

また、通信手段２００によりネットワークを介してサーバ装置などから音声データを取得したり、音声データ読取手段６００により記録媒体に記録された音声データを取得して音声情報７２０Ａを生成可能としている。このため、外部音データから自動的に抽出する構成に限らず、手動により音声データを抽出して音声情報７２０Ａを生成できるので、例えば利用者の好みの人の声を利用するなど、利用者の嗜好に沿って外部音に応じた音声の出力が得られる。

そして、演算手段９００を例えばＣＰＵ（Central Processing Unit）などを用いてプログラムとして構成しているので、プログラムをインストールすることで、発話の流れに対応して音声を出力できる構成が容易に得られ、利用の拡大が容易に図れる。さらには、そのプログラムを記録媒体に記録し、適宜演算手段９００、すなわちコンピュータに読み取らせる構成とすることで、容易に対話の流れに対応した音声を出力できる構成が得られるとともに、プログラムを容易に取り扱いでき、利用の拡大が容易にできる。なお、本発明における演算手段としては、１つのコンピュータに限らず、複数のコンピュータをネットワーク状に組み合わせた構成、上述したようなＣＰＵやマイクロコンピュータなどの素子、あるいは複数の電子部品が搭載された回路基板などをも含む。

〔実施形態の変形〕
なお、本発明は、上述した各実施の形態に限定されるものではなく、本発明の目的を達成できる範囲で以下に示される変形をも含むものである。

すなわち、移動状況としては、車両の移動に限らず、例えば飛行機や船舶など移動するいずれの移動体にも適用できる。さらには、上述したように、車両に配設する構成に限らず、家屋などの建造物などに設置して部屋の空間に外部環境を再現させる構成とするなどしてもよい。

そして、集音手段４００として、例えば車両の室内空間に対して４隅に位置する状態にそれぞれ配設された４つのマイクロフォン４１０を備えた構成とし、これらマイクロフォン４１０により４方向からの室内における外部音をそれぞれ集音可能としてもよい。この構成を利用し、各マイクロフォン４１０で集音した外部音データの音量特性などを認識し、外部音データにおける車内の搭乗する搭乗者を特定し、発話する搭乗者が切り替わる位置を区切位置としてもよい。さらには、外部音の音特性として周波数やアクセントなどを認識し、発話する搭乗者の切り替わりを認識し、その位置を区切位置とするなどしてもよい。これらのように、人称を認識することで、対話における一言の音声データに対する関連する語句の特定が容易となり、関連度合いのより適切な設定が得られ、発話に対してより関連のある音声出力が得られる。

また、音声情報７２０Ａとして音声データを特定する音声データＩＤ７２１に語句情報７２２および関連度情報７２３を関連付けて音声情報７２０Ａを生成して説明したが、語句情報７２２および関連度情報７２３を音声データに直接関連付けたデータ構造に音声情報７２０Ａを生成してもよい。このような構成によれば、記憶手段７００のテーブル構造の構成の簡略化が容易に図れる。

さらに、音声セグメント情報からテキスト形式に変換して言語解析により語句を認識する構成として、日本語を例示して説明したが、日本語に限らず、英語、中国語など、いずれの言語を対象とすることができる。

また、外部音データの音特性として音量を検出し、音量が所定値以下となるいわゆる無音部分を外部音データが区切られる区切位置として音声セグメント情報の切り出し位置として説明したが、例えば音特性の周波数などや声紋などを検出し、発話している人称を特定して人称が切り替わる位置を区切位置としたり、言語解析などにより文節を認識して文節が区切れる位置や語句に分解される位置を区切位置として認識するなど、いずれの方法で区切位置を認識してもよい。

そして、外部音データから音声セグメント情報に分解してそれぞれ言語解析により語句として認識し、音声データおよびキーワードとなる語句情報７２２を生成して説明したが、例えば音声セグメント情報に分解することなく外部音データから言語解析により、一言を音声データとして抽出し、この音声データより前に発話された語句を認識し、語句情報７２２として関連付けてもよい。

また、音声出力後の利用者の状況すなわち音声出力した音声データに対する評価を認識し、評価に対応して関連度合いを変更して説明したが、この評価により関連度合いを変更する処理をしなくてもよい。さらには、評価をそのまま関連度合いとして設定してもよい。

そして、外部音データから自動的に音声データを抽出して音声情報７２０Ａを生成するとともに、ネットワークを介して音声データを取得したり記録媒体に記録された音声データを取得して手動により音声情報７２０Ａを生成可能な構成について説明したが、自動または手動のいずれか一方のみの構成としてもよい。さらには、ネットワークを介して他の音声出力装置１００や記憶手段７００などから音声情報７２０Ａを取得してもよい。このような構成により、外部音データから自動的に音声情報７２０Ａを取得する構成では、利用者が使用する発話の内容などに沿った関連度合い以外の他の利用者の関連度合いとなる音声情報７２０Ａが得られ、茶々として発話に応じて出力される音声の意外性が得られ、より発話の喚起が得られる。さらには、利用者の音声や利用者が対話した人の音声以外の音声で出力されることとなり、より意外性が得られる。

また、出力制御手段９１２は、選出手段９１１にて選出した音声情報７２０Ａのうち、関連度情報７２３の関連度合いが最も高い音声情報７２０Ａの音声データを出力させる制御をする構成について説明したが、例えば選出された音声情報７２０Ａのいずれかをランダムに１つ選出して出力させてもよい。また、音声情報７２０Ａは語句の組み合わせに所定の親和性があるとして音声データに語句情報７２２が関連付けられているので、音声検索手段９１０で検出した音声情報７２０Ａのいずれかを選出手段９１１で選出することは所定の関連度合いに基づくこととなるので、検出した音声情報７２０Ａを選出手段９１１でランダムに１つ選出して出力させてもよい。

そして、出力制御手段９１２は、集音している外部音データの所定の音量以下となるいわゆる無音期間が所定時間経過したことを認識すると、選出した音声情報７２０Ａの音声データを出力させる制御をする構成について説明したが、所定時間経過しなくても区切位置となる無音を認識することで音声データを出力させてもよい。さらには、語句に対応する音声情報７２０Ａを検出した場合に直ちにその音声データを出力させてもよい。そして、無音期間として１〜２秒程度としたが、この期間に限らない。また、この無音期間や、音声データを出力させるタイミングを操作手段３００により設定可能とした構成としてもよい。

さらに、音声検索手段９１０で検索した音声情報７２０Ａにおいて、経過時間が長くなるにしたがって関連度合いのスコア値が小さくなるように演算し、同一の口語となる音声データ毎でスコア値を合算してスコア情報を生成し、このスコア情報のスコア値の高さに基づいて音声データを選出して説明したが、例えば同一の口語となる音声データでスコア値を合算する処理をせず、経過時間に基づいてスコア値を小さくする演算のみ実施し、現在地点における最も高いスコア値となる音声データを出力候補として選出したり、単に音声情報７２０Ａ毎の関連度合いの高さに基づいて、最も度合いが高い音声データを出力候補として選出したりしてもよい。また、同一の口語でスコア値を合算した場合において、出力させる音声データとしては、合算する前の各音声データの関連度合いが最も高い音声データを出力させる制御をしてもよい。

そして、音特性の制御としては、ＭＩＤＩ規格に準拠したＭＩＤＩメッセージのパラメータ値に基づいて外部音データを認識したり、音声データを出力させたりする制御に限らず、例えば電流値に基づいて制御するなどしてもよい。

さらに、記憶手段７００を装置構成内に設けて説明したが、例えば記憶手段７００を別体の構成としてネットワークを介して装置本体と接続するシステム構成などとしてもよい。このような構成により、音声情報７２０Ａが統括管理でき、新規の音声情報７２０Ａの登録や更新、修正などが容易にできるとともに、装置構成の簡略化が容易に図れる。

また、音声データに対して発話の語句に関する語句情報７２２を関連付けて音声情報７２０Ａを生成して説明したが、例えば踏切音に対して「またかよ」の発話により、「またかよ」を音声データとして生成し、この音声データに踏切音を他の音声データとして所定の関連度合いの関連度情報７２３を関連付けて音声情報７２０Ａを生成するなどしてもよく、音声を出力させる音として語句に限らず、いずれの音声を対象とすることができる。

その他、本発明の実施の際の具体的な構造および手順は、本発明の目的を達成できる範囲で他の構造などに適宜変更できる。

〔実施の形態の効果〕
上述したように、集音した外部音に関する一連の外部音データの音特性を認識して区切位置を認識し、区切位置の間における音声セグメント情報である外部音データの一部を音声に関する音声データとして生成する。そして、生成した音声データに対して外部音データにおける前後に位置する他の音声データとなる音声セグメント情報から抽出された語句情報７２２との関連度合いを演算して関連度情報７２３を認識し、音声データと語句情報７２２およびその語句情報７２２の語句の関連度合いに関する関連度情報７２３とを関連付けて１つのデータ構造の音声情報７２０Ａを生成している。このため、その車両内の発話における語句に対して出力させる音声として、その発話から抽出した音声データに基づいて音声情報７２０Ａを生成することで、この音声情報７２０Ａを利用して外部音に対して音声データを出力させる構成では、発話の内容の流れに伴った関連度合いで音声データが音声出力され、発話に対していわゆる茶々が入る状態となり、出力される音声を切っ掛けに発話が容易促進される。

本発明における一実施の形態に係る音声出力装置の概略構成を示すブロックである。前記実施の形態における記憶手段の音声データ検索テーブルデータベースのテーブル構造の概略構成を示す概念図である。前記実施の形態における外部音データから音声データおよび語句情報を抽出する状況を概念的に示す説明図で、（Ａ）は外部音データの音量に基づく波形図、（Ｂ）は抽出された語句情報の語句を示す説明図、（Ｃ）は音声データＡに対する距離に関するスコア値を示す説明図、（Ｄ）は音声データＢに対する距離に関するスコア値を示す説明図、（Ｅ）は音声セグメント情報から抽出される語句情報の数を示す説明図である。前記実施の形態における音声データに対する語句の経過距離の係数の設定値を表形式で示す説明図である。前記実施の形態におけるキーワードとして認識した語句の音声データに対応する語句についてのスコア値の演算状況を表形式で示す説明図である。前記実施の形態における音声出力装置における音声情報の生成処理の動作を示すフローチャートである。前記実施の形態における音声出力装置における音声出力処理の動作を示すフローチャートである。

符号の説明

４００…外部音取得手段としても機能する集音手段
９００…音声出力制御システムとして機能し得る音声出力制御装置としての演算手段
９００Ａ…演算手段としての音声情報生成装置である音声情報生成部
９００Ｂ…音声出力制御装置としても機能する音声データ出力制御部
９０１…外部音取得手段
９０２…音特性認識手段
９０３…区切位置認識手段
９０４…テキスト形式変換手段
９０５…語句認識手段としても機能する言語解析手段
９０６…音声データ生成手段
９０７…変更手段としても機能する関連度認識手段
９０８…音声情報生成手段
９１０…音声検索手段
９１１…選出手段
９１２…出力制御手段

Claims

集音した外部音に応じて音声を出力するための前記音声に関する音声情報を生成する音声情報生成装置であって、
前記外部音に関する一連の外部音データを取得する外部音取得手段と、
前記外部音データの音特性を認識する音特性認識手段と、
前記音特性に基づき前記外部音データが区切られる区切位置を認識する区切位置認識手段と、
前記区切位置の間における前記外部音データの一部を前記音声に関する音声データとして生成する音声データ生成手段と、
前記音声データに対して前記外部音データにおける前後に位置する他の前記音声データとの関連度合いを演算し関連度情報を生成する関連度認識手段と、
前記他の音声データとこの他の音声データおよび前記音声データの関連度合いに関する前記関連度情報とを前記音声データに関連付けて１つのデータ構造の前記音声情報を生成する音声情報生成手段と、
を具備したことを特徴とした音声情報生成装置。
請求項１に記載の音声情報生成装置であって、
前記外部音取得手段は、音声に関する外部音声データを前記外部音データとして取得する
ことを特徴とした音声情報生成装置。
請求項１または請求項２に記載の音声情報生成装置であって、
前記外部音取得手段は、前記外部音データから音声に関する外部音声データを抽出して前記外部音データとして取得する
ことを特徴とした音声情報生成装置。
請求項１ないし請求項３のいずれかに記載の音声情報生成装置であって、
前記区切位置認識手段は、前記外部音データの音特性に基づいてテキスト形式の文節を認識し、この文節が語句に分解される位置を前記区切位置として認識する
ことを特徴とした音声情報生成装置。
請求項１ないし請求項４のいずれかに記載の音声情報生成装置であって、
前記関連度認識手段は、前記音声データに対して前記外部音データにおける前に位置する前記他の音声データについてテキスト形式の文節を認識し、この文節を構成する語句と前記音声データとの関連度合いを、前記音声データに対する前記他の音声データとの関連度合いとして演算する
ことを特徴とした音声情報生成装置。
請求項５に記載の音声情報生成装置であって、
前記関連度認識手段は、前記他の音声データにおける前記語句の数が多くなるにしたがって値が小さくなる状態に前記関連度合いを演算する
ことを特徴とした音声情報生成装置。
請求項１ないし請求項６のいずれかに記載の音声情報生成装置であって、
前記関連度認識手段は、前記音声データに対して前記外部音データにおける前に位置し関連付けられる前記他の音声データとの距離を関連度合いとして演算する
ことを特徴とした音声情報生成装置。
請求項７に記載の音声情報生成装置であって、
前記関連度認識手段は、前記音声データに対して前記外部音データにおける前に位置し関連付けられる前記他の音声データまでの前記他の音声データの数を前記距離として演算する
ことを特徴とした音声情報生成装置。
請求項７または請求項８に記載の音声情報生成装置であって、
前記関連度認識手段は、前記音声データに対して前記外部音データにかける前に位置し関連付けられる前記他の音声データまでの時間長を前記距離として演算する
ことを特徴とした音声情報生成装置。
請求項１ないし請求項９のいずれかに記載の音声情報生成装置であって、
前記関連度認識手段は、前記音声データおよび前記他の音声データの組み合わせの出現頻度を演算し、この出現頻度に応じて前記関連度合いの値を増減する
ことを特徴とした音声情報生成装置。
請求項１ないし請求項１０のいずれかに記載の音声情報生成装置であって、
前記区切位置認識手段は、前記外部音の発音方向の変化を認識し、この発音方向が変化する前記外部音データの位置を前記区切位置として認識する
ことを特徴とした音声情報生成装置。
集音した外部音声に応じて音声を出力するための前記音声に関する音声情報を生成する音声情報生成装置であって、
前記外部音声に関する一連の外部音データを取得する外部音取得手段と、
前記外部音データの音特性を認識する音特性認識手段と、
前記音特性に基づき前記外部音データが区切られる区切位置を認識する区切位置認識手段と、
前記区切位置の間における前記外部音データの一部を前記音声に関する音声データとして生成する音声データ生成手段と、
前記音声データに対して前記外部音データにおける前後に位置する外部音声の語句を認識する語句認識手段と、
前記音声データと前記語句との関連度合いを演算し関連度情報を生成する関連度認識手段と、
前記語句に関する語句情報とこの語句情報および前記音声データの関連度合いに関する前記関連度情報とを前記音声データに関連付けて１つのデータ構造の前記音声情報を生成する音声情報生成手段と、
を具備したことを特徴とした音声情報生成装置。
請求項１２に記載の音声情報生成装置であって、
前記語句認識手段は、前記音声データに対して前記外部音データにおける前後に位置する外部音声をテキスト形式で認識し、このテキスト形式の外部音声を分割して前記語句を認識する
ことを特徴とした音声情報生成装置。
請求項１２または請求項１３に記載の音声情報生成装置であって、
前記関連度認識手段は、前記音声データに関連付けられる前記語句情報の語句との前記外部音データにおける距離を関連度合いとして演算する
ことを特徴とした音声情報生成装置。
請求項１４に記載の音声情報生成装置であって、
前記関連度認識手段は、前記音声データからこの音声データに関連付けられる前記語句情報の語句までの前記語句の数を前記距離として演算する
ことを特徴とした音声情報生成装置。
請求項１４または請求項１５に記載の音声情報生成装置であって、
前記関連度認識手段は、前記音声データからこの音声データに関連付けられる前記語句情報の語句までの時間長を前記距離として演算する
ことを特徴とした音声情報生成装置。
請求項１２ないし請求項１６のいずれかに記載の音声情報生成装置であって、
前記関連度認識手段は、前記音声データおよび前記語句情報の組み合わせの出現頻度を演算し、この出現頻度に応じて前記関連度合いの値を増減する
ことを特徴とした音声情報生成装置。
請求項１２ないし請求項１７のいずれかに記載の音声情報生成装置であって、
前記区切位置認識手段は、前記外部音声の発音方向の変化を認識し、この発音方向が変化する前記外部音データの位置を前記区切位置として認識する
ことを特徴とした音声情報生成装置。
請求項４ないし請求項６および請求項１２ないし請求項１８のいずれかに記載の音声情報生成装置であって、
前記語句は、前記外部音データの言語解析により認識される
ことを特徴とした音声情報生成装置。
請求項７ないし請求項９および請求項１４ないし請求項１９のいずれかに記載の音声情報生成装置であって、
前記関連度認識手段は、前記距離に関する値が大きくなるにしたがって値が低くなる状態に前記関連度合いを演算する
ことを特徴とした音声情報生成装置。
請求項１ないし請求項１０、請求項１２ないし請求項１７、請求項１９および請求項２０のいずれかに記載の音声情報生成装置であって、
前記区切位置認識手段は、前記外部音データの音特性における音質の変化に基づく人称の変化を認識し、この人称が変化する位置を前記区切位置として認識する
ことを特徴とした音声情報生成装置。
請求項１ないし請求項２１のいずれかに記載の音声情報生成装置であって、
前記区切位置認識手段は、前記外部音データの音特性における音量の大きさに基づき、所定の音量以下となる区間を前記区切位置として認識する
ことを特徴とした音声情報生成装置。
請求項１ないし請求項２２のいずれかに記載の音声情報生成装置であって、
前記区切位置認識手段は、前記外部音データの音特性における音量が変化する割合に基づき、前記割合が所定の割合以上となる位置を前記区切位置として認識する
ことを特徴とした音声情報生成装置。
請求項１ないし請求項２３のいずれかに記載の音声情報生成装置であって、
前記音特性認識手段は、前記外部音データの音量に基づく波形として音特性を認識する
ことを特徴とした音声情報生成装置。
請求項１ないし請求項２４のいずれかに記載の音声情報生成装置であって、
前記関連度認識手段は、前記音声データに対して前記外部音データにおける後に位置する他の前記音声データに基づいて、この他の音声データにおける前記音声データの内容についての評価を前記関連度情報の関連度合いとして演算する
ことを特徴とした音声情報生成装置。
請求項２５に記載の音声情報生成装置であって、
前記関連度認識手段は、前記他の音声データにおける笑い声の音量の大きさを認識し、この笑い声の音量の大きさに対応して前記評価を演算する
ことを特徴とした音声情報生成装置。
請求項２５または請求項２６に記載の音声情報生成装置であって、
前記関連度認識手段は、前記他の音声データの構文解析により肯定する内容の度合いを認識し、この認識した肯定する内容の度合いに対応して前記評価を演算する
ことを特徴とした音声情報生成装置。
演算手段により、集音した外部音に応じて音声を出力するための前記音声に関する音声情報を生成する音声情報生成方法であって、
前記演算手段は、
前記外部音に関する一連の外部音データを取得し、
この取得した外部音データの音特性を認識し、
この認識した音特性に基づいて前記外部音データが区切られる区切位置を認識し、
この認識した区切位置の間における前記外部音データの一部を抽出して前記音声に関する音声データとして生成し、
この生成した音声データに対して前記外部音データにおける前後に位置する他の音声データとの関連度合いを演算して関連度情報を生成し、
前記他の音声データと、この他の音声データおよび前記音声データの関連度に関する前記関連度情報とを、前記音声データに関連付けて１つのデータ構造の前記音声情報を生成する
ことを特徴とする音声情報生成方法。
演算手段により、集音した外部音声に応じて音声を出力するための前記音声に関する音声情報を生成する音声情報生成方法であって、
前記演算手段は、
前記外部音声に関する一連の外部音データを取得し、
この取得した外部音データの音特性を認識し、
この認識した音特性に基づいて前記外部音データが区切られる区切位置を認識し、
この認識した区切位置の間における前記外部音データの一部を抽出して前記音声に関する音声データとして生成し、
この生成した音声データに対して前記外部音データにおける前後に位置する外部音声の語句に関する語句情報を生成し、
この生成した語句情報の語句と前記音声データの音声との関連度合いを演算して関連度情報を生成し、
前記語句情報と、この語句情報および前記音声データの関連度合いに関する前記関連度情報とを、前記音声データに関連付けて１つのデータ構造の前記音声情報を生成する
ことを特徴とする音声情報生成方法。
演算手段を、請求項１なし請求項２７のいずれかに記載の音声情報生成装置として機能させる
ことを特徴とした音声情報生成プログラム。
請求項２８または請求項２９に記載の音声情報生成方法を演算手段に実行させる
ことを特徴とした音声情報生成プログラム。
請求項３０または請求項３１に記載の音声情報生成プログラムが演算手段に読取可能に記録された
ことを特徴とした音声情報生成プログラムを記録した記録媒体。
請求項１ないし請求項２７のいずれかに記載の音声情報生成装置で生成され、演算手段にて読み取り可能に構築された
ことを特徴とした音声情報のデータ構造。
演算手段にて読取可能で、集音した外部音に応じて前記演算手段により音声を出力するための音声情報のデータ構造であって、
前記外部音に関する一連の外部音データの音特性に基づいて、前記外部音データが区切られる区切位置の間における前記外部音データの一部が抽出された前記音声に関する音声データと、
この音声データに対して前記外部音データにおける前後の位置で抽出される他の音声に関し、前記音声データに１つのデータ構造に関連付けられる他の音声データと、
前記音声データおよび前記他の音声データとの関連度合いに関し、前記音声データおよび前記他の音声データに１つのデータ構造に関連付けられる関連度情報と、
を具備したことを特徴とした音声情報のデータ構造。
演算手段にて読取可能で、集音した外部音声に応じて前記演算手段により音声を出力するための音声情報のデータ構造であって、
前記外部音声に関する一連の外部音データの音特性に基づいて、前記外部音データが区切られる区切位置の間における前記外部音データの一部が抽出された前記音声に関する音声データと、
この音声データに対して前記外部音データにおける前後に位置する外部音声から抽出された語句に関し、前記音声データに１つのデータ構造に関連付けられる語句情報と、
前記音声データおよび前記語句情報との関連度合いに関し、前記音声データおよび前記語句情報に１つのデータ構造に関連付けられる関連度情報と、
を具備したことを特徴とした音声情報のデータ構造。
請求項３３ないし請求項３５のいずれかに記載の音声情報のデータ構造が演算手段にて読取可能に記録された
ことを特徴とした音声情報を記録した記録媒体。
集音した外部音に応じて音声を出力させる制御をする音声出力制御装置であって、
請求項１ないし請求項２７のいずれかに記載の音声情報生成装置で生成された音声情報、または、請求項３３ないし請求項３５のいずれかに記載の音声情報のデータ構造を複数記憶するテーブル構造に構築された記憶手段と、
前記集音した外部音に含まれる音声と同一の音声に対応する前記音声情報を前記記憶手段から検索する音声検索手段と、
前記検索により取得した前記音声情報のうち、前記関連度情報に基づいて所定の前記音声データを選出する選出手段と、
前記選出された音声データをスピーカから出力させる制御をする出力制御手段と、
を具備したことを特徴とした音声出力制御装置。
請求項３７に記載の音声出力制御装置であって、
前記出力制御手段は、前記選出手段にて選出した前記音声情報のうち、前記関連度情報の関連度合いが最も高い度合いとなる前記音声情報の前記音声データを前記スピーカから出力させる制御をする
ことを特徴とした音声出力制御装置。
請求項３７または請求項３８に記載の音声出力制御装置であって、
前記出力制御手段は、前記スピーカから出力させた前記音声データに対応する前記音声情報の前記関連度情報の関連度合いを高い度合いに設定する
ことを特徴とした音声出力制御装置。
請求項３７ないし請求項３９のいずれかに記載の音声出力制御装置であって、
前記出力制御手段により前記スピーカから前記音声データを出力させた時点より後に位置する前記外部音データに基づいて、前記出力された音声データに対する評価を認識し、この評価の内容に対応して前記音声データの関連度情報の関連度合いを変更する処理をする変更手段を具備した
ことを特徴とした音声出力制御装置。
集音した外部音に応じて音声を出力させる制御をする音声出力制御システムであって、
請求項１ないし請求項２７のいずれかに記載の音声情報生成装置で生成された音声情報、または、請求項３３ないし請求項３５のいずれかに記載の音声情報のデータ構造を複数記憶するテーブル構造に構築された記憶手段と、
この記憶手段にネットワークを介して前記音声情報を取得可能に接続され、前記外部音に関する一連の外部音データを取得する外部音取得手段、前記取得した外部音データの外部音に含まれる音声と同一の音声に対応する前記音声情報を前記ネットワークを介して前記記憶手段から検索する音声検索手段、前記検索により取得した前記音声情報のうち、前記関連度情報に基づいて所定の前記音声データを選出する選出手段、および、前記選出された音声データをスピーカから出力させる制御をする出力制御手段を備えた端末装置と、
を具備したことを特徴とした音声出力制御システム。