JP2006139133A - 音声情報生成装置、その方法、そのプログラム、そのプログラムを記録した記録媒体、音声情報のデータ構造、音声情報を記録した記録媒体、音声出力制御装置、および、そのシステム - Google Patents

音声情報生成装置、その方法、そのプログラム、そのプログラムを記録した記録媒体、音声情報のデータ構造、音声情報を記録した記録媒体、音声出力制御装置、および、そのシステム Download PDF

Info

Publication number
JP2006139133A
JP2006139133A JP2004329516A JP2004329516A JP2006139133A JP 2006139133 A JP2006139133 A JP 2006139133A JP 2004329516 A JP2004329516 A JP 2004329516A JP 2004329516 A JP2004329516 A JP 2004329516A JP 2006139133 A JP2006139133 A JP 2006139133A
Authority
JP
Japan
Prior art keywords
data
information
voice
audio
sound
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004329516A
Other languages
English (en)
Inventor
和哉 ▲高▼橋
Kazuya Takahashi
Ryuichiro Matsumoto
隆一郎 松本
Kentaro Yamamoto
健太郎 山本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Pioneer Corp
Original Assignee
Pioneer Electronic Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Pioneer Electronic Corp filed Critical Pioneer Electronic Corp
Priority to JP2004329516A priority Critical patent/JP2006139133A/ja
Publication of JP2006139133A publication Critical patent/JP2006139133A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Toys (AREA)

Abstract


【課題】 外部からの音に応じて良好に音声を出力させる音声出力装置を提供する。
【解決手段】 外部音を集音して取得した外部音データの音量に基づき、無音部分で外部音データから音声セグメント情報を分割する。音声セグメント情報をテキスト形式に変換して言語解析し、一言となる音声セグメント情報を音声データとする。音声データの前に位置する音声セグメント情報中の語句と音声データの語句との関連度合いを、経過時間が長くかつ語句の数が多くなるに従って小さくなるスコア値に設定し関連度情報を生成する。音声データに語句情報および関連度情報を関連付けて1つの音声情報を生成する。外部音データ中に、音声情報の語句情報と同一の語句を認識すると、この語句情報の音声情報を検索し、無音期間が1〜2秒以上経過した際、最も高いスコア値となる関連度情報の音声情報の音声データを音声出力する。
【選択図】 図1

Description

本発明は、外部音に応じて音声を出力するための音声に関する音声情報のデータ構造、その音声情報を記録した記録媒体、および、その音声情報を生成する音声情報生成装置、その方法、そのプログラム、そのプログラムを記録した記録媒体、ならびに、音声出力制御装置、および、音声出力制御システムに関する。
従来、音声を認識して音声データを出力するロボットや玩具、テレビゲームプログラムなどの各種構成が広く利用されている(例えば、特許文献1参照)。例えば、特許文献1に記載のものは、ロボットに適用した構成で、頭部ユニットの所定位置に配設されたマイクロホンでユーザの発話を含む周囲の音声を集音する。そして、得られた音声信号に基づいて、モデル記憶部の状態情報における韻律を感情モデルの値に基づいて制御した合成音を生成し、スピーカから出力させる構成が採られている。
特開2002−304187号公報(第3頁右欄−第10頁左欄)
しかしながら、上述した特許文献1に記載のような音声出力する従来の構成では、あらかじめ記憶された音声データを出力する構成であることから、発話の内容に対して発音される音声データに限りがある問題が一例として挙げられる。
本発明の目的は、このような点に鑑みて、外部からの音に応じて良好に音声を出力させることが可能となる音声情報生成装置、その方法、そのプログラム、そのプログラムを記録した記録媒体、音声情報のデータ構造、音声情報を記録した記録媒体、音声出力制御装置、および、音声出力制御システムを提供することである。
請求項1に記載の発明は、集音した外部音に応じて音声を出力するための前記音声に関する音声情報を生成する音声情報生成装置であって、前記外部音に関する一連の外部音データを取得する外部音取得手段と、前記外部音データの音特性を認識する音特性認識手段と、前記音特性に基づき前記外部音データが区切られる区切位置を認識する区切位置認識手段と、前記区切位置の間における前記外部音データの一部を前記音声に関する音声データとして生成する音声データ生成手段と、前記音声データに対して前記外部音データにおける前後に位置する他の前記音声データとの関連度合いを演算し関連度情報を生成する関連度認識手段と、前記他の音声データとこの他の音声データおよび前記音声データの関連度合いに関する前記関連度情報とを前記音声データに関連付けて1つのデータ構造の前記音声情報を生成する音声情報生成手段と、を具備したことを特徴とした音声情報生成装置である。
請求項12に記載の発明は、集音した外部音声に応じて音声を出力するための前記音声に関する音声情報を生成する音声情報生成装置であって、前記外部音声に関する一連の外部音データを取得する外部音取得手段と、前記外部音データの音特性を認識する音特性認識手段と、前記音特性に基づき前記外部音データが区切られる区切位置を認識する区切位置認識手段と、前記区切位置の間における前記外部音データの一部を前記音声に関する音声データとして生成する音声データ生成手段と、前記音声データに対して前記外部音データにおける前後に位置する外部音声の語句を認識する語句認識手段と、前記音声データと前記語句との関連度合いを演算し関連度情報を生成する関連度認識手段と、前記語句に関する語句情報とこの語句情報および前記音声データの関連度合いに関する前記関連度情報とを前記音声データに関連付けて1つのデータ構造の前記音声情報を生成する音声情報生成手段と、を具備したことを特徴とした音声情報生成装置である。
請求項28に記載の発明は、演算手段により、集音した外部音に応じて音声を出力するための前記音声に関する音声情報を生成する音声情報生成方法であって、前記演算手段は、前記外部音に関する一連の外部音データを取得し、この取得した外部音データの音特性を認識し、この認識した音特性に基づいて前記外部音データが区切られる区切位置を認識し、この認識した区切位置の間における前記外部音データの一部を抽出して前記音声に関する音声データとして生成し、この生成した音声データに対して前記外部音データにおける前後に位置する他の音声データとの関連度合いを演算して関連度情報を生成し、前記他の音声データと、この他の音声データおよび前記音声データの関連度に関する前記関連度情報とを、前記音声データに関連付けて1つのデータ構造の前記音声情報を生成することを特徴とする音声情報生成方法である。
請求項29に記載の発明は、演算手段により、集音した外部音声に応じて音声を出力するための前記音声に関する音声情報を生成する音声情報生成方法であって、前記演算手段は、前記外部音声に関する一連の外部音データを取得し、この取得した外部音データの音特性を認識し、この認識した音特性に基づいて前記外部音データが区切られる区切位置を認識し、この認識した区切位置の間における前記外部音データの一部を抽出して前記音声に関する音声データとして生成し、この生成した音声データに対して前記外部音データにおける前後に位置する外部音声の語句に関する語句情報を生成し、この生成した語句情報の語句と前記音声データの音声との関連度合いを演算して関連度情報を生成し、前記語句情報と、この語句情報および前記音声データの関連度合いに関する前記関連度情報とを、前記音声データに関連付けて1つのデータ構造の前記音声情報を生成することを特徴とする音声情報生成方法である。
請求項30に記載の発明は、演算手段を、請求項1なし請求項27のいずれかに記載の音声情報生成装置として機能させることを特徴とした音声情報生成プログラムである。
請求項31に記載の発明は、請求項28または請求項29に記載の音声情報生成方法を演算手段に実行させることを特徴とした音声情報生成プログラムである。
請求項32に記載の発明は、請求項30または請求項31に記載の音声情報生成プログラムが演算手段に読取可能に記録されたことを特徴とした音声情報生成プログラムを記録した記録媒体である。
請求項33に記載の発明は、請求項1ないし請求項27のいずれかに記載の音声情報生成装置で生成され、演算手段にて読み取り可能に構築されたことを特徴とした音声情報のデータ構造である。
請求項34に記載の発明は、演算手段にて読取可能で、集音した外部音に応じて前記演算手段により音声を出力するための音声情報のデータ構造であって、前記外部音に関する一連の外部音データの音特性に基づいて、前記外部音データが区切られる区切位置の間における前記外部音データの一部が抽出された前記音声に関する音声データと、この音声データに対して前記外部音データにおける前後の位置で抽出される他の音声に関し、前記音声データに1つのデータ構造に関連付けられる他の音声データと、前記音声データおよび前記他の音声データとの関連度合いに関し、前記音声データおよび前記他の音声データに1つのデータ構造に関連付けられる関連度情報と、を具備したことを特徴とした音声情報のデータ構造である。
請求項35に記載の発明は、演算手段にて読取可能で、集音した外部音声に応じて前記演算手段により音声を出力するための音声情報のデータ構造であって、前記外部音声に関する一連の外部音データの音特性に基づいて、前記外部音データが区切られる区切位置の間における前記外部音データの一部が抽出された前記音声に関する音声データと、この音声データに対して前記外部音データにおける前後に位置する外部音声から抽出された語句に関し、前記音声データに1つのデータ構造に関連付けられる語句情報と、前記音声データおよび前記語句情報との関連度合いに関し、前記音声データおよび前記語句情報に1つのデータ構造に関連付けられる関連度情報と、を具備したことを特徴とした音声情報のデータ構造である。
請求項36に記載の発明は、請求項33ないし請求項35のいずれかに記載の音声情報のデータ構造が演算手段にて読取可能に記録されたことを特徴とした音声情報を記録した記録媒体である。
請求項37に記載の発明は、集音した外部音に応じて音声を出力させる制御をする音声出力制御装置であって、請求項1ないし請求項27のいずれかに記載の音声情報生成装置で生成された音声情報、または、請求項33ないし請求項35のいずれかに記載の音声情報のデータ構造を複数記憶するテーブル構造に構築された記憶手段と、前記集音した外部音に含まれる音声と同一の音声に対応する前記音声情報を前記記憶手段から検索する音声検索手段と、前記検索により取得した前記音声情報のうち、前記関連度情報に基づいて所定の前記音声データを選出する選出手段と、前記選出された音声データをスピーカから出力させる制御をする出力制御手段と、を具備したことを特徴とした音声出力制御装置である。
請求項41に記載の発明は、集音した外部音に応じて音声を出力させる制御をする音声出力制御システムであって、請求項1ないし請求項27のいずれかに記載の音声情報生成装置で生成された音声情報、または、請求項33ないし請求項35のいずれかに記載の音声情報のデータ構造を複数記憶するテーブル構造に構築された記憶手段と、この記憶手段にネットワークを介して前記音声情報を取得可能に接続され、前記外部音に関する一連の外部音データを取得する外部音取得手段、前記取得した外部音データの外部音に含まれる音声と同一の音声に対応する前記音声情報を前記ネットワークを介して前記記憶手段から検索する音声検索手段、前記検索により取得した前記音声情報のうち、前記関連度情報に基づいて所定の前記音声データを選出する選出手段、および、前記選出された音声データをスピーカから出力させる制御をする出力制御手段を備えた端末装置と、を具備したことを特徴とした音声出力制御システムである。
以下、本発明に係る一実施の形態を図面に基づいて説明する。本実施の形態では、本発明の音声出力装置として移動体である例えば車両に搭載される装置構成について例示して説明する。なお、本発明における音声出力装置としては、移動体に搭載される構成の他、例えば家屋などの建造物に設置される構成やロボットなどにも適用できる。また、本実施の形態では、外部音として周囲の発話などの音声について説明するが、これに限らず、車内で発生する各種音や外部から車内に伝播する各種の音などを対象とすることができる。
〔音声出力装置の構成〕
図1は、本発明に係る一実施の形態における音声出力装置の概略構成を示すブロック図である。図2は、記憶手段の音声データ検索テーブルデータベースのテーブル構造の概略構成を示す概念図である。図3は、外部音データから音声データおよび語句情報を抽出する状況を概念的に示す説明図で、(A)は外部音データの音量に基づく波形図、(B)は抽出された語句情報の語句を示す説明図、(C)は音声データAに対する距離に関するスコア値を示す説明図、(D)は音声データBに対する距離に関するスコア値を示す説明図、(E)は音声セグメント情報から抽出される語句情報の数を示す説明図である。図4は、音声データに対する語句の経過距離の係数の設定値を表形式で示す説明図である。図5は、キーワードとして認識した語句の音声データに対応する語句についてのスコア値の演算状況を表形式で示す説明図である。
図において、100は音声出力装置で、この音声出力装置100は、移動体としての例えば車両内で発生する音、あるいは車外から車内に伝播する音に対して音声出力するものである。ここで、移動体としては、自動車や電車などの車両に限らず、例えば飛行機や船舶など移動するいずれの移動体にも適用できる。この音声出力装置100は、例えば車両に搭載された図示しないバッテリから供給される電力により動作する。そして、この音声出力装置100は、通信手段200と、操作手段300と、集音手段400と、発音手段500と、音声データ読取手段600と、音声情報を記録した記録媒体としても機能する記憶手段700と、メモリ800と、音声情報生成装置および音声出力制御装置としても機能する演算手段900と、を備えている。
通信手段200は、放送波などの無線媒体を受信し外部から入力される音声に関する音声データや、ネットワークを介してサーバ装置などから音声データあるいは音声情報を取得する。具体的には、通信手段200は、例えば、地上波アナログ放送や地上波デジタル放送あるいは衛星デジタル放送などの放送波を受信する図示しないアンテナが接続されたチューナなどを有し、アンテナからアナログ信号やデジタル信号として送信される音声データを取得する。また、通信手段200は、例えば、TCP/IPなどの汎用のプロトコルに基づくインターネット、イントラネット、LAN(Local Area Network)、無線媒体により情報が送受信可能な複数の基地局がネットワークを構成する通信回線網や放送網などのネットワークに接続可能で、これらネットワークを介してサーバ装置や基地局などから音声データや音声情報などを受信して取得する。そして、通信手段200は、演算手段900に接続され、取得した音声データや音声情報を演算手段900へ出力する。
操作手段300は、入力操作可能な図示しない操作ボタンや操作つまみなどを備えている。そして、操作手段300は、演算手段900に接続され、操作ボタンや操作つまみなどの入力操作に応じて所定の操作信号を演算手段900へ出力し、演算手段900で入力操作に応じた各種設定項目を入力設定させる。この操作手段300で設定入力される設定項目としては、例えば、通信手段200により受信させる情報の特定や発音手段500での発音状態あるいは音声データ読取手段の動作設定などの音声出力装置100全体の動作の設定内容の他、語句を設定入力したり、記憶手段700やメモリ800に記憶された各種情報の処理や実行を設定入力したり、記憶手段700やメモリ800に各種情報を記憶させる設定入力をしたりするなどが例示できる。なお、この操作手段300としては、操作ボタンや操作つまみなどの入力操作に限らず、例えば別途接続される表示装置に設けられたタッチパネルによる入力操作や、音声による入力操作、リモートコントローラなどの無線媒体を介して信号を出力する構成など、各種設定事項を設定入力可能ないずれの構成が適用できる。
集音手段400は、音声出力装置100の周囲である外部の外部音を取得すなわち集音する。この集音手段400は、例えば車両のダッシュボードに配設されたマイクロフォン410を備えている。そして、集音手段400は、演算手段900に接続され、マイクロフォン410で集音した外部音に関する外部音データを演算手段900へ出力する。
発音手段500は、演算手段900に接続され、演算手段900から出力される音声データなどを音声として出力する。この発音手段500は、演算手段900から出力されるアナログ信号の音声データなどを取得して増幅するなどの処理をする図示しない増幅器と、この増幅器で処理された音声データを音声として出力するスピーカ510と、などを備えている。なお、この発音手段500としては、あらかじめ車両に搭載された構成を利用してもよい。また、発音手段500は、通信手段200で受信あるいは音声データ読取手段で読み取られて出力される音声データや音楽データを出力したり、記憶手段700やメモリ800に記憶された音声データや音楽データを出力したりする構成としてもよい。
音声データ読取手段600は、例えば、HD(Hard Disk)やFD(Flexible Disk)などの磁気ディスク、CD(Compact Disc)やDVD(Digital Versatile Disc)などの光ディスク、光磁気ディスク、メモリカード、メモリなどの記録媒体に読み出し可能に記憶するドライブやドライバなどを備え、記録媒体に記憶された音声データや音楽データなどを読み出し、演算手段900へ出力する。なお、音声データ読取手段600は、演算手段900から出力される音声データや音楽データを記録媒体へ記憶させたりする構成を備えていてもよい。また、音声データ読取手段600としては、例えば通信手段200と共用の構成として、TV受像器やラジオ受信機など、放送波を受信して適宜処理し、音声データや音楽データとして演算手段900へ出力したり、ネットワークを介して音声データや音楽データを取得して演算手段900へ出力したりしてもよく、ドライブやドライバなどを備えた構成に限らない。
記憶手段700は、例えば音声データ読取手段600と同様にドライブやドライバなどを備え、記録媒体に音声情報を複数記録するテーブル構造を記録媒体に構築する。具体的には、記憶手段700は、音声データデータベース(DB:Data Base)710と、図2に示すような音声データ検索テーブルデータベース720と、を備えている。音声データDB710は、音声に関する音声データと、この音声データを特定する固有情報である音声データID(identification)と、を関連付けて1つのデータ構造として備えた複数記憶するテーブル構造に構成されている。この音声データは、例えば発話された文言から抽出された例えば単文や感嘆文、語句などの比較的に短い口語についてのデータである。音声データ検索テーブルDB720は、図2に示すように、音声データID721と、他の音声データとしてのテキスト形式の語句に関する語句情報722と、音声データID721に対応する音声データの音声である口語および語句情報722の語句との親和性となる関連度合いに関する関連度情報723と、を関連付けて1つのデータ構造として備えた音声情報720Aを複数記憶するテーブル構造に構成されている。関連度情報723は、例えば数値にて表されるスコアについての数値データである。なお、語句情報722としては、テキスト形式のデータ構造に限らず、音声データと同様の音声に関するデータやそのデータを特定するID番号などとして別途音声データを記憶させておく構成とするなどもよく、さらには発話に関する音声データに限らず、例えば踏切や警笛など、音に関するいずれの音声データを対象とすることができる。また、関連度情報723は、数値データに限らず、関連度合いに対応して差別化可能ないずれのデータ構造として構成してもよい。そして、記憶手段700としては、別途接続されるナビゲーション装置で利用される地図情報など、他の情報をも記憶可能に構成されている。
メモリ800は、操作手段300で入力操作される設定事項、音声データや音楽データなどの各種データを適宜読み出し可能に記憶する。また、メモリ800には、音声出力装置100全体を動作制御するOS(Operating System)上に展開される各種プログラムなどを記憶している。このメモリ800としては、例えば停電などにより突然電源が落ちた際にも記憶が保持される構成のメモリ、例えばCMOS(Complementary Metal-Oxide Semiconductor)メモリなどを用いることが望ましい。なお、メモリ800としては、HD、DVD、光ディスクなどの記録媒体に読み出し可能に記憶するドライブやドライバなどを備えた構成としてもよい。
演算手段900は、集音手段400で集音した外部音に応じて音声を出力させる制御および音声を出力させる音声情報720Aを生成する制御をする。この演算手段900は、図示しない各種入出力ポート、例えば通信手段200が接続される通信ポート、操作手段300が接続される入力ポート、集音手段400が接続される集音制御ポート、発音手段500が接続される発音制御ポート、音声データ読取手段600が接続される読取制御ポート、記憶手段700が接続される記憶ポート、メモリ800が接続されるメモリポートなどを有する。そして、演算手段900は、各種プログラムとして、外部音取得手段901と、音特性認識手段902と、区切位置認識手段903と、テキスト形式変換手段904と、語句認識手段としての言語解析手段905と、音声データ生成手段906と、変更手段としても機能する関連度認識手段907と、音声情報生成手段908と、語句認識手段としても機能するキーワード認識手段909と、音声検索手段910と、選出手段911と、出力制御手段912と、計時手段913と、などを備えている。そして、音特性認識手段902と、区切位置認識手段903と、テキスト形式変換手段904と、語句認識手段としての言語解析手段905と、音声データ生成手段906と、関連度認識手段907と、音声情報生成手段908とにより、音声を出力させる音声情報720Aを生成する演算手段としての音声情報生成装置としても機能する音声情報生成部900Aが構成されている。また、外部音取得手段901と、音特性認識手段902と、区切位置認識手段903と、テキスト形式変換手段904と、言語解析手段905と、キーワード認識手段909と、音声検索手段910と、選出手段911と、出力制御手段912とにより、外部音に応じて音声を出力させる音声出力制御装置として機能する音声データ出力制御部900Bが構成されている。
外部音取得手段901は、集音手段400で集音した外部音に関し出力される一連の外部音データを取得する。具体的には、外部音取得手段901は、図3(A)に示すような一連の波形図となる外部音データを取得する。この波形図としては、アナログ信号あるいはデジタル信号など、いずれのデータ形式で取得可能に構成されている。
音特性認識手段902は、外部音取得手段901で取得した外部音データの音特性を認識する。例えば、音特性認識手段902は、音特性としての音量に基づく波形で外部音データを認識する。
区切位置認識手段903は、音特性認識手段902で認識した音特性である音量に基づいて、所定の音量以下、ノイズや雑音などを考慮して発話がない状態の音量レベル、いわゆる無音部分を認識する。そして、区切位置認識手段903は、図3中に点線で示すように、認識した無音部分を外部音データが区切られる区切位置として設定する。さらに、区切位置認識手段903は、外部音取得手段901で取得した外部音データを、認識した区切位置で分割し、音声セグメント情報を生成する。
テキスト形式変換手段904は、区切位置認識手段903で生成した各音声セグメント情報を、それぞれテキスト形式に変換して音声テキスト情報を生成する。この生成した音声テキスト情報は、それぞれ対応する音声セグメント情報と関連付けられてメモリ800などに一時的に記憶される。
言語解析手段905は、テキスト形式変換手段904で生成される各音声テキスト情報を、それぞれ形態素解析や構文解析などの言語解析を実施する。具体的には、図3(B)に示すように、音声セグメント情報から語句を認識し、各語句に関する語句情報722を生成する。
音声データ生成手段906は、言語解析手段905にて実施した言語解析により、各音声テキスト情報が単文や感嘆文、あるいは疑問文直後の一言、または語句などの比較的に短い口語か否かを判断、例えば図3(B)に示すように、言語解析手段905で生成する語句情報722が1つだけか複数かを判断する。そして、音声データ生成手段906は、音声テキスト情報が短い口語であると判断すると、その音声テキスト情報が関連付く音声セグメント情報を音声データとして生成する。このように、音声データは、区切位置間における外部音データの一部の音声が抽出されて生成される。そして、生成された音声データは、新たに音声データID721が設定され、この音声データID721が1つのデータ構造に関連付けられて記憶手段700の音声データDB710に記憶される。
関連度認識手段907は、音声データ生成手段906で生成された音声セグメント情報である音声データに対して、外部音データの時系列における前に位置する他の音声データとなる他の音声セグメント情報の音声テキスト情報を構成する各語句との関連度合いを演算して関連度情報723を生成する。具体的には、関連度認識手段907は、音声データの口語に対して、他の音声セグメント情報の音声テキスト情報を言語解析手段905で言語解析により抽出された各語句情報722の語句の親和性となる関連度合いを数値にて認識する。この関連度合いの演算としては、音声データとの関連度合いが演算される対象となる語句と音声データとの距離、例えば音声データから語句までに遡る時間である時間経過を関連度合いとして演算する。
この経過時間の演算は、例えば、音声データの音声セグメント情報に対して、外部音データの時系列における他の音声セグメント情報までの距離すなわち他の音声セグメント情報の数と、各音声セグメント情報を構成する語句の数と、に基づいて演算する。具体的には、図3(C),(D)に示すように、直前の音声セグメント情報が最も高いスコアとなり遠くなる音声セグメント情報の数にしたがって値が小さくなるスコア値をあらかじめ設定する。すなわち、音声として出力させる音声データが、図3(B)に示すような「そうみたいよ」である場合には、その前に位置する音声セグメント情報である「あっちがパレットシティなの」に、「そうみたいよ」の音声データに対する関連度合いとして図3(C)に示すように3点がスコア付けされ、さらにその前の音声セグメント情報では2点、1点とスコア付けされる。同様に、音声として出力させる音声データが、図3(B)に示すような「マジで」である場合には、その前に位置する音声セグメント情報である「お台場の観覧車ってでっかくてキラキラしてるんやね」に、「マジで」の音声データに対する関連度合いとして図3(D)に示すように3点がスコア付けられ、さらにその前の音声セグメント情報である「そうみたいよ」には2点、さらにその前の「あっちがパレットシティなの」には1点がスコア付けされる。なお、このスコア付けの演算の他、以下の数1に示す式に基づいて演算してスコア付けしたり、数1の式で演算した値を図4に示すようにスコア値としてあらかじめ設定したりしてもよい。なお、図3(C),(D)は、3個前までの音声セグメント情報を対象として、音声セグメント情報毎に1点ずつ値が小さくなる状態に設定したスコア値を例示している。
(数1)
S=log10
S:時間経過のスコア値
X:対象の音声セグメント情報までの数(自然数)
また、音声セグメント情報を構成する語句の数によるスコア値は、例えば、図3(E)に示すように音声セグメント情報毎で言語解析により生成された語句情報722の数を認識し、数が多くなるにしたがってスコアの値が小さくなるように設定される。具体的には、音声セグメント情報の数に基づいて設定されたスコア値から語句情報722の数を除算し、各語句情報722のスコア値を演算する。この語句毎で演算したスコア値が、音声データの口語に対する関連度合いとして設定される。
なお、経過時間としては、単に対象となる語句までの語句の数や時間長に反比例してスコアの値が小さくなるように演算するなどしてもよい。さらに、関連度合いとしては、経過時間の概念に限らず、例えば構文解析による会話の応答関係によりスコア付けしたり、語句の品詞やアクセント、波形に基づく語尾の抑揚などに基づいてスコア付けしたり、語句の組み合わせにおける過去の出現頻度すなわち語句の組み合わせを履歴して出現する数に比例してスコア付けしたりするなどしてもよく、これら例示した方法と上記例示の方法とを適宜組み合わせるなどしてもよい。
音声情報生成手段908は、音声データに語句情報722が関連度情報723とともに1つのデータ構造に関連付けられた音声情報720Aを生成する。すなわち、音声情報生成手段908は、音声データに対して関連度認識手段907で認識した関連度合いとなる語句の語句情報722を、その関連度情報723とともに音声データの音声データID721に図2に示すように1つのデータ構造に関連付け、音声情報720Aを生成する。そして、生成した音声情報720Aは、記憶手段700の音声データ検索テーブルDB720に記憶される。この生成した音声情報720Aの記憶の際、音声データおよび語句情報722の組み合わせが同じ音声情報720Aが既に記憶されている場合、音声情報生成手段908は、既に記憶されている音声情報720Aの関連度情報723に、今回演算した関連度情報723を反映させる。例えば、以下の数2に示す式に基づいて関連度合いを再演算し、得られた関連度情報723を更新する処理をする。なお、この数2に示す出現頻度を考慮した演算方法に限らず、既に記憶されている関連度情報723のスコアと新たに生成した音声情報720Aの関連度情報723のスコアとの平均を単に演算する出現頻度を考慮しない演算方法などでもよい。さらには、新たに生成した音声情報720Aで更新するなど、過去の関連度情報723を考慮せずにそのまま記憶させる構成などとしてもよい。
(数2)
V=(V0×n/(n+1))+(V1×1/(n+1))
V:再演算した関連度合い
0:記憶されている音声情報720Aの関連度情報723の関連度合い
1:新たに生成した音声情報720Aの関連度情報723の関連度合い
n:過去に出現した音声データおよび語句情報722の組み合わせの回数(出現頻度)
キーワード認識手段909は、集音している発話状況に基づいて、音声データを音声出力させるためのキーワードを認識する。すなわち、キーワード認識手段909は、集音している外部音データから言語解析手段905で認識した語句情報722に基づいて、記憶手段700の音声データ検索テーブルDB720に記憶した各音声情報720Aの語句情報722の語句と同一のキーワードとなる語句が外部音データ中に出現するか否かを判断する。そして、キーワード認識手段909は、キーワードとなる語句を認識すると、キーワードが発話された旨の信号を出力する。この信号としては、キーワードとして認識した語句を特性する情報が含まれている。すなわち、所定の語句を検出した旨の信号である。
音声検索手段910は、キーワード認識手段909で認識した語句に対応する音声情報720Aを、記憶手段700の音声データ検索テーブルDB720から検出する。この検出した音声情報720Aは、例えばメモリ800に適宜記憶される。
選出手段911は、音声検索手段910で検索された音声情報720Aの関連度情報723に基づいて、所定の音声情報720Aの音声データを選出する。すなわち、選出手段911は、スコア演算手段911Aと、音声データ選出手段911Bと、を備えている。
スコア演算手段911Aは、検索された音声情報720Aの音声データ毎に関連度合いを集計、すなわち、同一の口語となる音声データのスコアの値を合算する演算をし、スコアに関するスコア情報を生成する。例えば、図5に示すように、スコア演算手段911Aは、外部音データにおける計時手段913で計時する現時点から音声検索手段910で検索した音声情報720Aの語句情報722に対応する語句の位置までの時間長が長くなるにしたがって、関連度情報723の関連度合いのスコアの値を小さくする演算をする。この時間長が長くなるにしたがってスコア値を小さくする演算としては、関連度合いのスコアの値から、上述した関連度認識手段907により関連度合いを設定する際に利用する経過時間の演算方法、例えば数1で演算された値を減算する演算をする。さらに、スコア演算手段911Aは、経過時間を考慮したスコア値を同一の口語となる音声データ毎に合算し、現在時点でのその音声データのスコア値としてスコア情報を生成する。なお、このスコア情報は、音声データに直接関連付けてもよいが、演算処理負荷を考慮して音声データID721に関連付けておくとよい。また、時間長である経過時間に基づいてスコア値を演算する構成に限らず、外部音データにおける現時点から音声検索手段910で検索した音声情報720Aの語句情報722に対応する語句の位置までの語句の数が多くなるにしたがってスコア情報のスコアの値を小さくする演算、例えばあらかじめ数に対応して設定された設定値を除算する演算をするなどしてもよい。
音声データ選出手段911Bは、スコア演算手段911Aで順次演算されるスコア情報のスコアの値に基づき、所定の音声データを選出する。例えば、音声データ選出手段911Bは、スコア情報のスコア値が最も高い音声データを音声出力候補として選出する。この選出された音声データは、メモリ800などに適宜記憶される。なお、この音声データの記憶は、直接音声データを記憶してもよいが、上述したように、演算処理負荷を考慮して、音声データID721を記憶させておくとよい。
出力制御手段912は、選出手段911で選出された音声データを発音手段500のスピーカ510から音声として出力させる制御をする。例えば、出力制御手段912は、外部音データにおける区切位置を認識すると、メモリ800に記憶されている音声データID721に対応する音声データを記憶手段700から読み取ってアナログ信号に適宜変換するなどの処理をし、発音手段500へ出力する。この区切位置を認識して出力させる際、出力制御手段912は、区切位置の区間となる時間長が1〜2秒以上、好ましくは2秒以上であるかを否かを判断し、1〜2秒以上であると判断した場合に音声データを出力させる制御をし、区切位置の時間長が短い場合にはその音声データを出力させない。なお、この次の区切位置を認識するまでには、少なくとも1つの音声セグメント情報が生成されることから、それまで演算された関連度合いに関するスコア値がスコア演算手段により再演算されることとなり、メモリ800に別の音声データID721が置換されている可能性がある。このため、出力制御手段912は、1〜2秒以上の区間となる区切位置を認識した時点でメモリ800から音声データID721を取得して、音声出力させる制御を実施する。そして、音声出力させる制御としては、例えば米MMA(MIDI Manufacturers Association)と日本MIDI評議会(Japan MIDI Standards Committee:JMSC)とにより規格化されたGM(General MIDI)規格、あるいはGS(General Standard)規格、またはXG(Extended General MIDI)規格、さらにはGMレベル2規格などに基づくMIDIメッセージを利用するなどしてもよい。
計時手段913は、例えば内部クロックなどの基準パルスに基づいて現在時刻を認識する。そして、この計時手段913は、認識した現在時刻に関する時刻情報を適宜出力する。
〔音声出力装置の動作〕
次に、上記音声出力装置100の動作を図面に基づいて説明する。なお、音声情報720Aの生成処理と、外部音に応じて音声を出力させる音声出力処理とは、同時に処理できるが、説明の都合上、分けて説明する。図6は、音声出力装置における音声情報の生成処理の動作を示すフローチャートである。図7は、音声出力装置における音声出力処理の動作を示すフローチャートである。
(音声情報の生成処理)
車両に搭乗した利用者がキー操作により車両のアクセサリ電源を投入することにより、車両のバッテリから音声出力装置100に電力が供給される。この電力の供給により、音声出力装置100は、演算手段900は図示しない表示装置にメニュー画面などを表示させる処理をし、操作手段300からの入力操作に基づく動作要求の設定の待機状態、すなわち動作待機状態となる。そして、演算手段900は、メニュー画面に基づく操作手段300からの音声情報720Aの生成処理要求の信号を認識すると(ステップS10)、例えば音声情報720Aの生成方法が手動によるものか自動によるものかの選択入力を促す画面表示を表示装置に表示させる制御をする(ステップS11)。
そして、ステップS11において、手動による音声情報720Aの生成処理要求を認識すると、演算手段900は音声データを取得する処理をする(ステップS201)。この音声データの取得処理としては、例えばいずれの方法で音声データを取得するかの取得方法の操作手段300による設定入力を促す画面表示をしたり、音声データを格納する機器やサーバなどの配信元を特定する操作手段300による設定入力を促す画面表示などをしたりする制御をし、設定された取得方法で取得したり特定された配信元から音声データを取得する処理をする。
具体的には、例えば所定の音声に関する配信データを配信するサーバ装置や各種放送番組から配信データを受信して音声データを取得する場合、演算手段900は、通信手段200を制御してサーバ装置からネットワークを介して所望の音声の配信データを受信させ、外部音取得手段901で外部音データとして取得させて記憶手段700に記憶させるとともに、出力制御手段912にてスピーカ510から出力させる処理をする。そして、利用者がスピーカ510から音声出力される状況を認識しつつ操作手段300の操作により出力される音声から音声データとして切り出す開始位置と終了位置とを設定すると、区切位置認識手段903が配信データにおける開始位置と終了位置とを認識し、音声データ生成手段906が開始位置および終了位置間の配信データを音声データとして生成する。なお、記憶手段700に記憶した配信データは、入力操作に基づいて削除したり、音声データを生成後に自動的に削除したりすればよい。
また、例えば光ディスクなどの着脱可能な記録媒体に記録された音声に関する記録データから音声データを取得する場合、演算手段900は、音声データ読取手段600を動作させ、所定の記憶データを読み取らせる。そして、上述した配信データから抽出する場合と同様に、入力設定された開始位置および終了位置に基づいて音声データ生成手段906により音声データを生成する。なお、記憶手段700やメモリ800に別途記憶された記憶データから抽出する場合も同様に、記憶手段700やメモリ800から記憶データを読み取って抽出すればよい。これらのように、ステップS201において、音声データ生成手段906により生成された音声データは、新たに音声データID721が設定され、この音声データID721と関連付けられて1つのデータ構造で記憶手段700の音声データDB710に記憶される。
このステップS201の後、演算手段900は、例えば生成した音声データを出力させるための関連する語句の設定を促す旨の画面表示を表示装置に表示する。具体的には、入力操作に基づいて、操作手段300による入力操作にてテキスト入力可能なテキストボックスを有する画面表示を表示させ、この画面表示に基づいてテキスト入力された語句を言語解析手段905が語句情報722として生成する(ステップS202)。この生成された語句情報722は、メモリ800に適宜記憶される。
さらに、ステップS202の後、演算手段900は、例えばステップS201で生成した音声データの口語とステップS202で生成した語句情報722の語句との関連度合いの設定を促す旨の画面表示を表示装置に表示する。具体的には、入力操作に基づいて、操作手段300による入力操作にて数値入力可能なテキストボックスを有する画面表示を表示させ、この画面表示に基づいて数値入力された値を関連度認識手段907が関連度合いのスコアと認識して関連度情報723を生成する(ステップS203)。この生成された関連度情報723は、メモリ800に適宜記憶される。
この後、音声情報生成手段908は、メモリ800に記憶された音声データに対応した音声データID721と、語句情報722と、関連度情報723とを1つのデータ構造に関連付けて音声情報720Aを生成する(ステップS204)。そして、音声情報生成手段908は、生成した音声情報720Aを記憶手段700の音声データ検索テーブルDB720に記憶させる(ステップS205)。この後、演算手段900は、新たに他の音声情報720Aの生成を確認、すなわち音声情報720Aの生成処理の継続か否かの操作手段300による設定入力を促す画面表示を表示装置に表示、すなわち処理の継続か否かを判断する処理をする(ステップS206)。このステップS206で処理の継続を要求する旨の入力操作を認識すると、ステップS201に戻って、手動による音声情報720Aの生成処理を継続する。一方、ステップS206で処理を継続しないすなわち終了を要求する旨の入力操作を認識すると、音声情報720Aを生成する処理を終了する。
一方、ステップS11において、自動による音声情報720Aの生成処理要求を認識、例えば自動処理を設定する入力操作あるいは外部音に対する音声の出力処理と平行して音声情報720Aを生成する処理を実施させる入力操作などを演算手段900が認識すると、演算手段900は集音手段400を制御してマイクロフォン410にて車内の外部音を集音させる(ステップS301)。このステップS301における集音処理により、演算手段900の外部音取得手段901がマイクロフォン410で集音する外部音に対応する信号を、図3(A)に示すように一連の外部音データとして取得する。この後、演算手段900は、音特性認識手段902により外部音取得手段901で取得した外部音データの音特性、例えば音量の大きさを認識、すなわち一連の外部音データの音量を順次監視する(ステップS302)。
このステップS302における音特性認識手段902での認識する音量が、所定の音量以下、すなわちいわゆる無音となったことを区切位置認識手段903により認識すると、区切位置認識手段903は無音区間を区切位置として認識し、順次取得している外部音データを区切位置で分割して音声セグメント情報を生成する(ステップS303)。なお、音声セグメント情報は、連続して切り出した少なくとも4つ分以上をメモリ800に記憶される。そして、演算手段900は、テキスト形式変換手段904により、区切位置認識手段903で順次生成する音声セグメント情報をテキスト形式に変換して音声テキスト情報を生成する。さらに、演算手段900は、言語解析手段905により、生成された音声テキスト情報を形態素解析や構文解析などの言語解析を実施し、例えば図3(B)に示すように、音声セグメント情報に含まれる語句を認識し、これら語句に関する語句情報722を生成する(ステップS304)。これら生成された語句情報722は、音声セグメント情報と関連付けられてメモリ800に合わせて記憶される。
そして、演算手段900は、音声データ生成手段906により、順次生成される音声テキスト情報と語句情報722とに基づいて、言語解析により音声テキスト情報から抽出される語句が1つだけとなる音声セグメント情報を認識し、その音声セグメント情報を音声データとする(ステップS305)。そして、音声データ生成手段906は、設定した音声データに新たに音声データID721を関連付けて記憶手段700の音声データDB710に記憶させる。
このステップS305における音声データの生成処理の後、この音声データの直前から少なくとも3つ前までに切り出された音声セグメント情報から抽出された語句情報722の語句と、ステップS305で生成した音声データの口語である語句との関連度合いを関連度認識手段907により認識する(ステップS306)。すなわち、音声データまでの外部音データにおける経過時間の長さとなる音声データに対して音声セグメント情報が外部音データの時系列で前に位置する数を計数する。具体的には、図3(C),(D)に示すように、音声データに対して直前に位置する音声セグメント情報に対しては3点、2つ前では2点、3つ前では1点のスコア値を、対応する音声セグメント情報に関連付けるスコア付けの処理をする。さらに、関連度認識手段907は、図3(E)に示すように、スコア付けされた各音声セグメント情報から抽出された語句情報722の数を計数する。そして、関連度認識手段907は、各音声セグメント情報に関連付けられたスコア値を計数した語句情報722の数で除算し、この除算により得られた値を語句情報722の関連度合いとして関連度情報723を生成する。
このステップS306における関連度合いの認識処理の後、演算手段900は、音声情報生成手段908により音声データに対応する音声データID721に、その音声データに対応する語句情報722および関連度情報723を1つのデータ構造に関連付けて音声情報720Aを生成する(ステップS307)。そして、音声情報生成手段908は、生成した音声情報720Aを記憶手段700の音声データ検索テーブルDB720に記憶させる(ステップS308)。このステップS308の記憶処理の際、音声データおよび語句情報722の組み合わせと同じ音声情報720Aが既に記憶されている場合、音声情報生成手段908は、既に記憶されている音声情報720Aの関連度情報723に、今回演算した関連度情報723を反映、例えば数2の式に基づいて関連度合いを再演算し、新たな関連度情報723を更新する処理をする。この後、演算手段900は、音声情報720Aの自動生成処理の中止を要求する旨を認識したか否かを判断する(ステップS309)。そして、このステップS309で中止要求がないと判断した場合にはステップS301に戻って音声情報720Aの自動生成処理を継続し、中止要求があると判断した場合には音声情報720Aを生成する処理を終了する。
(音声出力処理)
一方、演算手段900の待機状態で、例えばメニュー画面に基づく操作手段300からの外部音に対する音声の出力要求の信号を認識すると(ステップS401)、演算手段900は、集音手段400を制御してマイクロフォン410にて車内の外部音を集音させる(ステップS402)。このステップS402における集音処理により、演算手段900の外部音取得手段901がマイクロフォン410で集音する外部音に対応する信号を、図3(A)に示すように一連の外部音データとして取得する。この後、演算手段900は、音特性認識手段902により外部音取得手段901で取得した外部音データの音特性、例えば音量の大きさを認識、すなわち一連の外部音データの音量を順次監視する(ステップS403)。
このステップS403における音特性認識手段902での認識する音量が、所定の音量以下、すなわちいわゆる無音となったことを区切位置認識手段903により認識すると、区切位置認識手段903は無音区間を区切位置として認識し、順次取得している外部音データを区切位置で分割して音声セグメント情報を生成する(ステップS404)。これら生成された音声セグメント情報は、メモリ800に適宜記憶される。なお、この記憶される数は、例えば10個程度とある程度の数にあらかじめ設定した数に限ってもよい。このことにより、メモリ800の負荷や処理負荷の低減が図れる。
このステップS404における音声セグメント情報の生成処理の後、演算手段900は、キーワード認識手段909により、記憶手段700の音声データ検索テーブルDB720に記憶した各音声情報720Aの語句情報722の語句と同一のキーワードとなる語句が外部音データ中に出現するか否かを判断、すなわち、外部音データの言語解析により(ステップS405)、キーワードの外部音データの出現を監視する(ステップS406)。そして、このステップS405においてキーワードを認識すると、音声検索手段910により記憶手段700の音声データ検索テーブルDB720からキーワードとなる語句の語句情報722を有した音声情報720Aを検出する(ステップS407)。
このステップS407の後、演算手段900は、選出手段911により、検出した音声情報720Aのうち、関連度情報723に基づいて、所定の音連度合いとなる語句の組み合わせとなる音声情報720Aを選出する。すなわち、選出手段911のスコア演算手段911Aにより、計時手段913で計時する外部音データにおける現時点から、音声検索手段910で検索した音声情報720Aの語句情報722に対応する語句の位置までの距離、すなわち時間長の長さを認識する(ステップS408)。この時間長の長さとして、スコア演算手段911Aは、例えばその語句情報722の音声セグメント情報におけるキーワードの語句が含まれる音声セグメント情報からの数を認識する。そして、スコア演算手段911Aは、上述した例えば数1の式に基づいて、経過時間の係数である経過時間のスコア値Sを演算し、各音声情報720Aの関連度情報723の関連度合いのスコア値から減算する。さらに、スコア演算手段911Aは、経過時間を考慮したスコア値を同一の口語となる音声データ毎に合算し、現在時点でのキーワードとして認識した語句に対応する音声データのスコア値としてスコア情報を生成する。このステップS408におけるキーワードからの語句の距離の認識処理により演算されたスコア情報のスコア値に基づき、演算手段900は、音声データ選出手段911Bにより、スコア情報のスコア値が最も高い音声データを音声出力候補として選出し、その音声データID721に対応する音声データID721をメモリ800に適宜記憶する(ステップS409)。
このステップS409の後、演算手段900は、出力制御手段912により、区切位置認識手段903で区切位置の区間となる時間長が1〜2秒以上となったか否かを判断する(ステップS410)。そして、このステップS410において、区切位置の時間長が1〜2秒以上経過していないと判断した場合、音声データを読み取ることなく、音声出力処理の中止を要求する旨を認識したか否かを判断する(ステップS411)。そして、このステップS411で中止要求がないと判断した場合にはステップS402に戻って、処理を継続する。一方、ステップS411において、音声出力処理の中止要求があると判断した場合には外部音に対する音声を出力させる処理を終了する。
また、ステップS410において、出力制御手段912が区切位置認識手段903で区切位置の区間となる時間長が1〜2秒以上となったことを認識すると、メモリ800に記憶されている音声データID721に対応する音声データを記憶手段700から読み取ってアナログ信号に適宜変換するなどの処理をし、発音手段500へ出力する(ステップS412)。
ここで、外部音データから区切位置認識手段903で、例えば図5(A)に示すような「そう言えばお台場の」の音声セグメント情報および「パレットシティ」の音声セグメント情報に分解された場合について説明する。まず、外部音データから区切位置認識手段903により「そう言えばお台場の」の音声セグメント情報が切り出され、言語解析手段905で[そう言えば]、[お台場の]の語句情報722が抽出される。そして、キーワード認識手段909により各語句情報722の語句をキーワードとして認識した場合、そして、音声検索手段910により、「そう言えば」に対して、「何ですか?」の音声データと、「聞きたくない!」の音声データと、「急がないよ」の音声データとがそれぞれ関連付けられた3つの音声情報720Aが検索され、「お台場の」に対して、「綺麗〜っ!」の音声データと、「マジで!」の音声データとがそれぞれ関連付けられた2つの音声情報720Aが検索される。そして、スコア演算手段911Aが各音声情報720Aの関連度情報723を認識する。この際、次の音声セグメント情報がまだ認識されていない、すなわち次の区切位置がまだ認識されておらず、「パレットシティ」の音声セグメント情報が抽出されていないので、「そう言えばお台場の」の音声セグメント情報は現時点に対して直近となる。このことにより、スコア演算手段911Aは、各音声情報720Aの語句情報722における数1に基づく時間経過の係数Sの値が「0」となり、関連度情報723のスコア値で音声データ選出手段911Bが最も関連度合いの高い「綺麗〜っ!」の音声データを音声出力候補として選出する。
そして、出力制御手段912により、現在認識している区切位置の時間長が1〜2秒を経過したと認識すると、「綺麗〜っ!」の音声データが出力される。ここで、区切位置の時間長が1〜2秒を経過していないと判断、すなわち次の「パレットシティ」を認識していることとなる。そして、次の区切位置を認識して「パレットシティ」の音声セグメント情報が切り出されると、この「パレットシティ」の音声セグメント情報からは分解されずにそのまま[パレットシティ]が語句情報722として認識される。そして、キーワード認識手段909が[パレットシティ]をキーワードとなる語句として認識すると、音声検索手段910により「パケットシティ」に対して「マジで!」の音声データが関連付けられた音声情報720Aが検索される。そして、スコア演算手段911Aが各音声情報720Aの関連度情報723に、現時点までの時間経過を反映させる。具体的には、[パレットシティ]は現時点に対して直近となるので係数Sは「0」であるが、[そう言えば]および[お台場の]の語句情報722は一つ前の音声セグメント情報であることから、時間経過の係数Sが数1から演算され、この演算された係数Sとなる「0.30」を各関連度合いのスコア値から減算する。さらに、スコア演算手段911Aは、同一の語句となる音声データ「マジで!」のスコア値を集計し、スコア情報とする。このことにより、それまでは、「綺麗〜っ!」の音声データが一番スコア値が高かったが、時間経過により現時点での関連度合いが低くなるのに対し、現時点では「マジで!」が最も高い関連度合いとなり、音声出力候補として「綺麗〜っ!」から「マジで!」に更新される。このようにして、発話における現時点で、発話に対して最も関連度合いが高い語句が選出され、音声出力される状態となる。
そして、ステップS412で音声データを出力させる処理の後、演算手段900は、関連度認識手段907により、音声出力させた音声データの音声セグメント情報に対して外部音データにおける時系列で後に位置する外部音データでの音声データの内容についての評価を認識し、この評価に対応して音声出力させた音声データの音声情報720Aの関連度合いを変更する処理をする。具体的には、外部音データの音特性に基づいて笑い声を認識したり、言語解析により例えば「いいね」、「面白い」、「笑える」などの音声出力を肯定する内容を認識したりするなどにより、評価として良好であったか否かを判断する(ステップS413)。そして、ステップS413で、関連度認識手段907は、評価が良好であったと判断した場合、その音声出力させた音声情報720Aの関連度情報723のスコア値をあらかじめ設定された設定値を加算するなどにより高い値に設定して音声情報720Aを更新する処理をし(ステップS414)、ステップS411に進む。一方、ステップS413で、例えば無音が継続したり、言語解析により「つまらない」、「鬱陶しい」、「邪魔」などの否定する内容を認識したりするなどにより、評価として悪かったと判断した場合、その音声情報720Aの関連度情報723のスコア値をあらかじめ設定された設定値で減算するなどにより低い値に設定して音声情報720Aを更新する処理をし(ステップS415)、ステップS411に進む。なお、評価に対応してスコア値を変更する処理として、あらかじめ設定された設定値を加減算する構成に限らず、例えば笑い声の大きさが大きくなるにしたがって、あるいは肯定する言語の数が多くなるにしたがって加算するスコア値の値が大きくなったり、変数や係数を用いて加減算以外の演算を実施したりするなどしてもよい。
〔音声出力装置の作用効果〕
上述したように、上記実施の形態では、集音した外部音に関する一連の外部音データの音特性を認識し、この音特性に基づいて外部音データが区切られる区切位置を認識し、区切位置の間における音声セグメント情報である外部音データの一部を音声に関する音声データとして生成する。そして、生成した音声データに対して外部音データにおける前後に位置する音声セグメント情報から抽出された語句情報722との関連度合いを演算して関連度情報723を認識し、音声データと語句情報722およびその語句情報722の語句の関連度合いに関する関連度情報723とを関連付けて1つのデータ構造の音声情報720Aを生成している。
このため、その車両内の発話における語句に対して出力させる音声として、その発話から抽出した音声データに基づいて音声情報720Aを生成しているので、この音声情報720Aを利用して外部音に対して音声データを出力させる構成では、発話の内容の流れに伴った関連度合いで音声データが音声出力され、発話に対して茶々が入る状態となり、出力される音声を切っ掛けに発話が容易促進される。このことにより、良好な運転環境が容易に得られる。さらに、発話の流れに伴わない全く関係のない音声は出力されないので、発話が阻害されず、良好な発話環境を提供できる。
そして、特に発話に基づく外部音データから音声データを抽出している。このため、例えば機械音などの発話の流れに対応しない音声データを出力しないので、より発話が阻害されず、良好な発話環境が得られる。
そして、関連度合いが最も高い値となる音声データを音声出力している。このため、最も発話の流れにおける現時点で最も関連する音声がいわゆる茶々として出力されるので、良好に発話の喚起が得られる。
さらに、外部音データの音量に基づいて音声データや語句情報722の基となる音声セグメント情報を切り出している。このため、語句毎に外部音データを切り出す場合に比して、より発話の流れに沿った関連度合いで音声データに語句情報722を関連付けることができ、外部音に対して適切な音声を出力でき、良好な発話環境を提供できる。
また、外部音データが区切られる位置となる音声データや音声セグメント情報の切り出す位置、すなわち発話の流れの区切れる位置として、所定の音量以下となるいわゆる無音部分を認識している。このため、発話の流れに沿った音声データや音声セグメント情報を容易に抽出でき、良好な発話環境を提出するための音声情報720Aを容易に生成できる。また、外部音データを音量に基づく波形として認識すればよく、構成の簡略化を容易に図れる。
さらに、音声セグメント情報から音声テキスト情報を生成し、この音声テキスト情報を形態素解析や構文解析などの言語解析により語句を認識し、この語句を音声データを出力させるためのキーワードとして関連付けて音声情報720Aを生成している。このため、容易に外部音に対して、いわゆる茶々を入れる音声を適切に出力できる音声情報720Aを容易に生成できる。
そして、関連度認識手段907により音声データに対する関連度合いとして、音声データまでの距離、すなわち時間長や音声セグメント情報の数に基づいて設定している。このため、現時点で発話に対して出力させようとする音声データを選出するためのキーワードとなる語句との適切な関連度合いを設定できる。したがって、発話に対して良好に関連する音声を出力できる。特に、時間長や語句の数により、発話の流れに対していわゆる茶々を入れるタイミングでの適切な音声データを選出するための関連度合いを容易に設定でき、音声情報720Aの設定が容易にできる。
さらには、関連度認識手段907は、音声データに対する距離に対応した関連度合いのスコア値を、その音声セグメント情報の語句情報722の数で除算している。すなわち、音声セグメント情報に複数の語句情報722が存在する場合にその後に発話される語句となる音声データに対する関連度合いは、語句情報722の数の分だけ薄れることとなるので、より適切に音声データに対する関連度合いを設定できる。
また、音声情報720Aとして音声データを特定する音声データID721に語句情報722および関連度情報723を関連付けて音声情報720Aを生成している。このため、集音している外部音データから認識した語句に対応する音声情報720Aを比較的に小さい負荷で検索でき、音声情報720Aの検索速度の高速化が容易に図れ、外部音に対する音声の良好な出力が得られる。さらには、音声情報720Aのデータ量が小さくなり、記憶手段700のテーブル構造の構築や保守管理が容易にできる。
さらに、音声情報720Aの関連度情報723のスコア値を音声データの口語と語句情報722の語句との組み合わせの出現頻度を利用することで、より対話の流れに対応した音声をいわゆる茶々として出力させることができる。
また、関連度情報723として、音声出力したのちの音声に対する利用者や対話している人の出力された音声に対する評価に基づいてスコア値を変更している。このため、より利用者の嗜好に沿った音声出力が得られる。
さらに、音声出力に対する評価として、笑い声や言語解析による肯定する語句の検索などにより評価内容を認識している。このため、容易に評価を認識でき、構成の簡略化が容易に図れる。
そして、出力制御手段912により、集音している外部音データの所定の音量以下となるいわゆる無音期間が所定時間経過したことを認識すると、選出した音声情報720Aの音声データを出力させる制御をしている。このため、例えば対話している最中に頻繁に音声データが出力される煩わしさを防止できる。さらには、無音期間が2秒以上経過したことを認識した際に音声データを出力させることで、出力される音声データを切っ掛けとして対話が開始されることとなり、対話の促進も得られる。
また、通信手段200によりネットワークを介してサーバ装置などから音声データを取得したり、音声データ読取手段600により記録媒体に記録された音声データを取得して音声情報720Aを生成可能としている。このため、外部音データから自動的に抽出する構成に限らず、手動により音声データを抽出して音声情報720Aを生成できるので、例えば利用者の好みの人の声を利用するなど、利用者の嗜好に沿って外部音に応じた音声の出力が得られる。
そして、演算手段900を例えばCPU(Central Processing Unit)などを用いてプログラムとして構成しているので、プログラムをインストールすることで、発話の流れに対応して音声を出力できる構成が容易に得られ、利用の拡大が容易に図れる。さらには、そのプログラムを記録媒体に記録し、適宜演算手段900、すなわちコンピュータに読み取らせる構成とすることで、容易に対話の流れに対応した音声を出力できる構成が得られるとともに、プログラムを容易に取り扱いでき、利用の拡大が容易にできる。なお、本発明における演算手段としては、1つのコンピュータに限らず、複数のコンピュータをネットワーク状に組み合わせた構成、上述したようなCPUやマイクロコンピュータなどの素子、あるいは複数の電子部品が搭載された回路基板などをも含む。
〔実施形態の変形〕
なお、本発明は、上述した各実施の形態に限定されるものではなく、本発明の目的を達成できる範囲で以下に示される変形をも含むものである。
すなわち、移動状況としては、車両の移動に限らず、例えば飛行機や船舶など移動するいずれの移動体にも適用できる。さらには、上述したように、車両に配設する構成に限らず、家屋などの建造物などに設置して部屋の空間に外部環境を再現させる構成とするなどしてもよい。
そして、集音手段400として、例えば車両の室内空間に対して4隅に位置する状態にそれぞれ配設された4つのマイクロフォン410を備えた構成とし、これらマイクロフォン410により4方向からの室内における外部音をそれぞれ集音可能としてもよい。この構成を利用し、各マイクロフォン410で集音した外部音データの音量特性などを認識し、外部音データにおける車内の搭乗する搭乗者を特定し、発話する搭乗者が切り替わる位置を区切位置としてもよい。さらには、外部音の音特性として周波数やアクセントなどを認識し、発話する搭乗者の切り替わりを認識し、その位置を区切位置とするなどしてもよい。これらのように、人称を認識することで、対話における一言の音声データに対する関連する語句の特定が容易となり、関連度合いのより適切な設定が得られ、発話に対してより関連のある音声出力が得られる。
また、音声情報720Aとして音声データを特定する音声データID721に語句情報722および関連度情報723を関連付けて音声情報720Aを生成して説明したが、語句情報722および関連度情報723を音声データに直接関連付けたデータ構造に音声情報720Aを生成してもよい。このような構成によれば、記憶手段700のテーブル構造の構成の簡略化が容易に図れる。
さらに、音声セグメント情報からテキスト形式に変換して言語解析により語句を認識する構成として、日本語を例示して説明したが、日本語に限らず、英語、中国語など、いずれの言語を対象とすることができる。
また、外部音データの音特性として音量を検出し、音量が所定値以下となるいわゆる無音部分を外部音データが区切られる区切位置として音声セグメント情報の切り出し位置として説明したが、例えば音特性の周波数などや声紋などを検出し、発話している人称を特定して人称が切り替わる位置を区切位置としたり、言語解析などにより文節を認識して文節が区切れる位置や語句に分解される位置を区切位置として認識するなど、いずれの方法で区切位置を認識してもよい。
そして、外部音データから音声セグメント情報に分解してそれぞれ言語解析により語句として認識し、音声データおよびキーワードとなる語句情報722を生成して説明したが、例えば音声セグメント情報に分解することなく外部音データから言語解析により、一言を音声データとして抽出し、この音声データより前に発話された語句を認識し、語句情報722として関連付けてもよい。
また、音声出力後の利用者の状況すなわち音声出力した音声データに対する評価を認識し、評価に対応して関連度合いを変更して説明したが、この評価により関連度合いを変更する処理をしなくてもよい。さらには、評価をそのまま関連度合いとして設定してもよい。
そして、外部音データから自動的に音声データを抽出して音声情報720Aを生成するとともに、ネットワークを介して音声データを取得したり記録媒体に記録された音声データを取得して手動により音声情報720Aを生成可能な構成について説明したが、自動または手動のいずれか一方のみの構成としてもよい。さらには、ネットワークを介して他の音声出力装置100や記憶手段700などから音声情報720Aを取得してもよい。このような構成により、外部音データから自動的に音声情報720Aを取得する構成では、利用者が使用する発話の内容などに沿った関連度合い以外の他の利用者の関連度合いとなる音声情報720Aが得られ、茶々として発話に応じて出力される音声の意外性が得られ、より発話の喚起が得られる。さらには、利用者の音声や利用者が対話した人の音声以外の音声で出力されることとなり、より意外性が得られる。
また、出力制御手段912は、選出手段911にて選出した音声情報720Aのうち、関連度情報723の関連度合いが最も高い音声情報720Aの音声データを出力させる制御をする構成について説明したが、例えば選出された音声情報720Aのいずれかをランダムに1つ選出して出力させてもよい。また、音声情報720Aは語句の組み合わせに所定の親和性があるとして音声データに語句情報722が関連付けられているので、音声検索手段910で検出した音声情報720Aのいずれかを選出手段911で選出することは所定の関連度合いに基づくこととなるので、検出した音声情報720Aを選出手段911でランダムに1つ選出して出力させてもよい。
そして、出力制御手段912は、集音している外部音データの所定の音量以下となるいわゆる無音期間が所定時間経過したことを認識すると、選出した音声情報720Aの音声データを出力させる制御をする構成について説明したが、所定時間経過しなくても区切位置となる無音を認識することで音声データを出力させてもよい。さらには、語句に対応する音声情報720Aを検出した場合に直ちにその音声データを出力させてもよい。そして、無音期間として1〜2秒程度としたが、この期間に限らない。また、この無音期間や、音声データを出力させるタイミングを操作手段300により設定可能とした構成としてもよい。
さらに、音声検索手段910で検索した音声情報720Aにおいて、経過時間が長くなるにしたがって関連度合いのスコア値が小さくなるように演算し、同一の口語となる音声データ毎でスコア値を合算してスコア情報を生成し、このスコア情報のスコア値の高さに基づいて音声データを選出して説明したが、例えば同一の口語となる音声データでスコア値を合算する処理をせず、経過時間に基づいてスコア値を小さくする演算のみ実施し、現在地点における最も高いスコア値となる音声データを出力候補として選出したり、単に音声情報720A毎の関連度合いの高さに基づいて、最も度合いが高い音声データを出力候補として選出したりしてもよい。また、同一の口語でスコア値を合算した場合において、出力させる音声データとしては、合算する前の各音声データの関連度合いが最も高い音声データを出力させる制御をしてもよい。
そして、音特性の制御としては、MIDI規格に準拠したMIDIメッセージのパラメータ値に基づいて外部音データを認識したり、音声データを出力させたりする制御に限らず、例えば電流値に基づいて制御するなどしてもよい。
さらに、記憶手段700を装置構成内に設けて説明したが、例えば記憶手段700を別体の構成としてネットワークを介して装置本体と接続するシステム構成などとしてもよい。このような構成により、音声情報720Aが統括管理でき、新規の音声情報720Aの登録や更新、修正などが容易にできるとともに、装置構成の簡略化が容易に図れる。
また、音声データに対して発話の語句に関する語句情報722を関連付けて音声情報720Aを生成して説明したが、例えば踏切音に対して「またかよ」の発話により、「またかよ」を音声データとして生成し、この音声データに踏切音を他の音声データとして所定の関連度合いの関連度情報723を関連付けて音声情報720Aを生成するなどしてもよく、音声を出力させる音として語句に限らず、いずれの音声を対象とすることができる。
その他、本発明の実施の際の具体的な構造および手順は、本発明の目的を達成できる範囲で他の構造などに適宜変更できる。
〔実施の形態の効果〕
上述したように、集音した外部音に関する一連の外部音データの音特性を認識して区切位置を認識し、区切位置の間における音声セグメント情報である外部音データの一部を音声に関する音声データとして生成する。そして、生成した音声データに対して外部音データにおける前後に位置する他の音声データとなる音声セグメント情報から抽出された語句情報722との関連度合いを演算して関連度情報723を認識し、音声データと語句情報722およびその語句情報722の語句の関連度合いに関する関連度情報723とを関連付けて1つのデータ構造の音声情報720Aを生成している。このため、その車両内の発話における語句に対して出力させる音声として、その発話から抽出した音声データに基づいて音声情報720Aを生成することで、この音声情報720Aを利用して外部音に対して音声データを出力させる構成では、発話の内容の流れに伴った関連度合いで音声データが音声出力され、発話に対していわゆる茶々が入る状態となり、出力される音声を切っ掛けに発話が容易促進される。
本発明における一実施の形態に係る音声出力装置の概略構成を示すブロックである。 前記実施の形態における記憶手段の音声データ検索テーブルデータベースのテーブル構造の概略構成を示す概念図である。 前記実施の形態における外部音データから音声データおよび語句情報を抽出する状況を概念的に示す説明図で、(A)は外部音データの音量に基づく波形図、(B)は抽出された語句情報の語句を示す説明図、(C)は音声データAに対する距離に関するスコア値を示す説明図、(D)は音声データBに対する距離に関するスコア値を示す説明図、(E)は音声セグメント情報から抽出される語句情報の数を示す説明図である。 前記実施の形態における音声データに対する語句の経過距離の係数の設定値を表形式で示す説明図である。 前記実施の形態におけるキーワードとして認識した語句の音声データに対応する語句についてのスコア値の演算状況を表形式で示す説明図である。 前記実施の形態における音声出力装置における音声情報の生成処理の動作を示すフローチャートである。 前記実施の形態における音声出力装置における音声出力処理の動作を示すフローチャートである。
符号の説明
400…外部音取得手段としても機能する集音手段
900…音声出力制御システムとして機能し得る音声出力制御装置としての演算手段
900A…演算手段としての音声情報生成装置である音声情報生成部
900B…音声出力制御装置としても機能する音声データ出力制御部
901…外部音取得手段
902…音特性認識手段
903…区切位置認識手段
904…テキスト形式変換手段
905…語句認識手段としても機能する言語解析手段
906…音声データ生成手段
907…変更手段としても機能する関連度認識手段
908…音声情報生成手段
910…音声検索手段
911…選出手段
912…出力制御手段

Claims (41)

  1. 集音した外部音に応じて音声を出力するための前記音声に関する音声情報を生成する音声情報生成装置であって、
    前記外部音に関する一連の外部音データを取得する外部音取得手段と、
    前記外部音データの音特性を認識する音特性認識手段と、
    前記音特性に基づき前記外部音データが区切られる区切位置を認識する区切位置認識手段と、
    前記区切位置の間における前記外部音データの一部を前記音声に関する音声データとして生成する音声データ生成手段と、
    前記音声データに対して前記外部音データにおける前後に位置する他の前記音声データとの関連度合いを演算し関連度情報を生成する関連度認識手段と、
    前記他の音声データとこの他の音声データおよび前記音声データの関連度合いに関する前記関連度情報とを前記音声データに関連付けて1つのデータ構造の前記音声情報を生成する音声情報生成手段と、
    を具備したことを特徴とした音声情報生成装置。
  2. 請求項1に記載の音声情報生成装置であって、
    前記外部音取得手段は、音声に関する外部音声データを前記外部音データとして取得する
    ことを特徴とした音声情報生成装置。
  3. 請求項1または請求項2に記載の音声情報生成装置であって、
    前記外部音取得手段は、前記外部音データから音声に関する外部音声データを抽出して前記外部音データとして取得する
    ことを特徴とした音声情報生成装置。
  4. 請求項1ないし請求項3のいずれかに記載の音声情報生成装置であって、
    前記区切位置認識手段は、前記外部音データの音特性に基づいてテキスト形式の文節を認識し、この文節が語句に分解される位置を前記区切位置として認識する
    ことを特徴とした音声情報生成装置。
  5. 請求項1ないし請求項4のいずれかに記載の音声情報生成装置であって、
    前記関連度認識手段は、前記音声データに対して前記外部音データにおける前に位置する前記他の音声データについてテキスト形式の文節を認識し、この文節を構成する語句と前記音声データとの関連度合いを、前記音声データに対する前記他の音声データとの関連度合いとして演算する
    ことを特徴とした音声情報生成装置。
  6. 請求項5に記載の音声情報生成装置であって、
    前記関連度認識手段は、前記他の音声データにおける前記語句の数が多くなるにしたがって値が小さくなる状態に前記関連度合いを演算する
    ことを特徴とした音声情報生成装置。
  7. 請求項1ないし請求項6のいずれかに記載の音声情報生成装置であって、
    前記関連度認識手段は、前記音声データに対して前記外部音データにおける前に位置し関連付けられる前記他の音声データとの距離を関連度合いとして演算する
    ことを特徴とした音声情報生成装置。
  8. 請求項7に記載の音声情報生成装置であって、
    前記関連度認識手段は、前記音声データに対して前記外部音データにおける前に位置し関連付けられる前記他の音声データまでの前記他の音声データの数を前記距離として演算する
    ことを特徴とした音声情報生成装置。
  9. 請求項7または請求項8に記載の音声情報生成装置であって、
    前記関連度認識手段は、前記音声データに対して前記外部音データにかける前に位置し関連付けられる前記他の音声データまでの時間長を前記距離として演算する
    ことを特徴とした音声情報生成装置。
  10. 請求項1ないし請求項9のいずれかに記載の音声情報生成装置であって、
    前記関連度認識手段は、前記音声データおよび前記他の音声データの組み合わせの出現頻度を演算し、この出現頻度に応じて前記関連度合いの値を増減する
    ことを特徴とした音声情報生成装置。
  11. 請求項1ないし請求項10のいずれかに記載の音声情報生成装置であって、
    前記区切位置認識手段は、前記外部音の発音方向の変化を認識し、この発音方向が変化する前記外部音データの位置を前記区切位置として認識する
    ことを特徴とした音声情報生成装置。
  12. 集音した外部音声に応じて音声を出力するための前記音声に関する音声情報を生成する音声情報生成装置であって、
    前記外部音声に関する一連の外部音データを取得する外部音取得手段と、
    前記外部音データの音特性を認識する音特性認識手段と、
    前記音特性に基づき前記外部音データが区切られる区切位置を認識する区切位置認識手段と、
    前記区切位置の間における前記外部音データの一部を前記音声に関する音声データとして生成する音声データ生成手段と、
    前記音声データに対して前記外部音データにおける前後に位置する外部音声の語句を認識する語句認識手段と、
    前記音声データと前記語句との関連度合いを演算し関連度情報を生成する関連度認識手段と、
    前記語句に関する語句情報とこの語句情報および前記音声データの関連度合いに関する前記関連度情報とを前記音声データに関連付けて1つのデータ構造の前記音声情報を生成する音声情報生成手段と、
    を具備したことを特徴とした音声情報生成装置。
  13. 請求項12に記載の音声情報生成装置であって、
    前記語句認識手段は、前記音声データに対して前記外部音データにおける前後に位置する外部音声をテキスト形式で認識し、このテキスト形式の外部音声を分割して前記語句を認識する
    ことを特徴とした音声情報生成装置。
  14. 請求項12または請求項13に記載の音声情報生成装置であって、
    前記関連度認識手段は、前記音声データに関連付けられる前記語句情報の語句との前記外部音データにおける距離を関連度合いとして演算する
    ことを特徴とした音声情報生成装置。
  15. 請求項14に記載の音声情報生成装置であって、
    前記関連度認識手段は、前記音声データからこの音声データに関連付けられる前記語句情報の語句までの前記語句の数を前記距離として演算する
    ことを特徴とした音声情報生成装置。
  16. 請求項14または請求項15に記載の音声情報生成装置であって、
    前記関連度認識手段は、前記音声データからこの音声データに関連付けられる前記語句情報の語句までの時間長を前記距離として演算する
    ことを特徴とした音声情報生成装置。
  17. 請求項12ないし請求項16のいずれかに記載の音声情報生成装置であって、
    前記関連度認識手段は、前記音声データおよび前記語句情報の組み合わせの出現頻度を演算し、この出現頻度に応じて前記関連度合いの値を増減する
    ことを特徴とした音声情報生成装置。
  18. 請求項12ないし請求項17のいずれかに記載の音声情報生成装置であって、
    前記区切位置認識手段は、前記外部音声の発音方向の変化を認識し、この発音方向が変化する前記外部音データの位置を前記区切位置として認識する
    ことを特徴とした音声情報生成装置。
  19. 請求項4ないし請求項6および請求項12ないし請求項18のいずれかに記載の音声情報生成装置であって、
    前記語句は、前記外部音データの言語解析により認識される
    ことを特徴とした音声情報生成装置。
  20. 請求項7ないし請求項9および請求項14ないし請求項19のいずれかに記載の音声情報生成装置であって、
    前記関連度認識手段は、前記距離に関する値が大きくなるにしたがって値が低くなる状態に前記関連度合いを演算する
    ことを特徴とした音声情報生成装置。
  21. 請求項1ないし請求項10、請求項12ないし請求項17、請求項19および請求項20のいずれかに記載の音声情報生成装置であって、
    前記区切位置認識手段は、前記外部音データの音特性における音質の変化に基づく人称の変化を認識し、この人称が変化する位置を前記区切位置として認識する
    ことを特徴とした音声情報生成装置。
  22. 請求項1ないし請求項21のいずれかに記載の音声情報生成装置であって、
    前記区切位置認識手段は、前記外部音データの音特性における音量の大きさに基づき、所定の音量以下となる区間を前記区切位置として認識する
    ことを特徴とした音声情報生成装置。
  23. 請求項1ないし請求項22のいずれかに記載の音声情報生成装置であって、
    前記区切位置認識手段は、前記外部音データの音特性における音量が変化する割合に基づき、前記割合が所定の割合以上となる位置を前記区切位置として認識する
    ことを特徴とした音声情報生成装置。
  24. 請求項1ないし請求項23のいずれかに記載の音声情報生成装置であって、
    前記音特性認識手段は、前記外部音データの音量に基づく波形として音特性を認識する
    ことを特徴とした音声情報生成装置。
  25. 請求項1ないし請求項24のいずれかに記載の音声情報生成装置であって、
    前記関連度認識手段は、前記音声データに対して前記外部音データにおける後に位置する他の前記音声データに基づいて、この他の音声データにおける前記音声データの内容についての評価を前記関連度情報の関連度合いとして演算する
    ことを特徴とした音声情報生成装置。
  26. 請求項25に記載の音声情報生成装置であって、
    前記関連度認識手段は、前記他の音声データにおける笑い声の音量の大きさを認識し、この笑い声の音量の大きさに対応して前記評価を演算する
    ことを特徴とした音声情報生成装置。
  27. 請求項25または請求項26に記載の音声情報生成装置であって、
    前記関連度認識手段は、前記他の音声データの構文解析により肯定する内容の度合いを認識し、この認識した肯定する内容の度合いに対応して前記評価を演算する
    ことを特徴とした音声情報生成装置。
  28. 演算手段により、集音した外部音に応じて音声を出力するための前記音声に関する音声情報を生成する音声情報生成方法であって、
    前記演算手段は、
    前記外部音に関する一連の外部音データを取得し、
    この取得した外部音データの音特性を認識し、
    この認識した音特性に基づいて前記外部音データが区切られる区切位置を認識し、
    この認識した区切位置の間における前記外部音データの一部を抽出して前記音声に関する音声データとして生成し、
    この生成した音声データに対して前記外部音データにおける前後に位置する他の音声データとの関連度合いを演算して関連度情報を生成し、
    前記他の音声データと、この他の音声データおよび前記音声データの関連度に関する前記関連度情報とを、前記音声データに関連付けて1つのデータ構造の前記音声情報を生成する
    ことを特徴とする音声情報生成方法。
  29. 演算手段により、集音した外部音声に応じて音声を出力するための前記音声に関する音声情報を生成する音声情報生成方法であって、
    前記演算手段は、
    前記外部音声に関する一連の外部音データを取得し、
    この取得した外部音データの音特性を認識し、
    この認識した音特性に基づいて前記外部音データが区切られる区切位置を認識し、
    この認識した区切位置の間における前記外部音データの一部を抽出して前記音声に関する音声データとして生成し、
    この生成した音声データに対して前記外部音データにおける前後に位置する外部音声の語句に関する語句情報を生成し、
    この生成した語句情報の語句と前記音声データの音声との関連度合いを演算して関連度情報を生成し、
    前記語句情報と、この語句情報および前記音声データの関連度合いに関する前記関連度情報とを、前記音声データに関連付けて1つのデータ構造の前記音声情報を生成する
    ことを特徴とする音声情報生成方法。
  30. 演算手段を、請求項1なし請求項27のいずれかに記載の音声情報生成装置として機能させる
    ことを特徴とした音声情報生成プログラム。
  31. 請求項28または請求項29に記載の音声情報生成方法を演算手段に実行させる
    ことを特徴とした音声情報生成プログラム。
  32. 請求項30または請求項31に記載の音声情報生成プログラムが演算手段に読取可能に記録された
    ことを特徴とした音声情報生成プログラムを記録した記録媒体。
  33. 請求項1ないし請求項27のいずれかに記載の音声情報生成装置で生成され、演算手段にて読み取り可能に構築された
    ことを特徴とした音声情報のデータ構造。
  34. 演算手段にて読取可能で、集音した外部音に応じて前記演算手段により音声を出力するための音声情報のデータ構造であって、
    前記外部音に関する一連の外部音データの音特性に基づいて、前記外部音データが区切られる区切位置の間における前記外部音データの一部が抽出された前記音声に関する音声データと、
    この音声データに対して前記外部音データにおける前後の位置で抽出される他の音声に関し、前記音声データに1つのデータ構造に関連付けられる他の音声データと、
    前記音声データおよび前記他の音声データとの関連度合いに関し、前記音声データおよび前記他の音声データに1つのデータ構造に関連付けられる関連度情報と、
    を具備したことを特徴とした音声情報のデータ構造。
  35. 演算手段にて読取可能で、集音した外部音声に応じて前記演算手段により音声を出力するための音声情報のデータ構造であって、
    前記外部音声に関する一連の外部音データの音特性に基づいて、前記外部音データが区切られる区切位置の間における前記外部音データの一部が抽出された前記音声に関する音声データと、
    この音声データに対して前記外部音データにおける前後に位置する外部音声から抽出された語句に関し、前記音声データに1つのデータ構造に関連付けられる語句情報と、
    前記音声データおよび前記語句情報との関連度合いに関し、前記音声データおよび前記語句情報に1つのデータ構造に関連付けられる関連度情報と、
    を具備したことを特徴とした音声情報のデータ構造。
  36. 請求項33ないし請求項35のいずれかに記載の音声情報のデータ構造が演算手段にて読取可能に記録された
    ことを特徴とした音声情報を記録した記録媒体。
  37. 集音した外部音に応じて音声を出力させる制御をする音声出力制御装置であって、
    請求項1ないし請求項27のいずれかに記載の音声情報生成装置で生成された音声情報、または、請求項33ないし請求項35のいずれかに記載の音声情報のデータ構造を複数記憶するテーブル構造に構築された記憶手段と、
    前記集音した外部音に含まれる音声と同一の音声に対応する前記音声情報を前記記憶手段から検索する音声検索手段と、
    前記検索により取得した前記音声情報のうち、前記関連度情報に基づいて所定の前記音声データを選出する選出手段と、
    前記選出された音声データをスピーカから出力させる制御をする出力制御手段と、
    を具備したことを特徴とした音声出力制御装置。
  38. 請求項37に記載の音声出力制御装置であって、
    前記出力制御手段は、前記選出手段にて選出した前記音声情報のうち、前記関連度情報の関連度合いが最も高い度合いとなる前記音声情報の前記音声データを前記スピーカから出力させる制御をする
    ことを特徴とした音声出力制御装置。
  39. 請求項37または請求項38に記載の音声出力制御装置であって、
    前記出力制御手段は、前記スピーカから出力させた前記音声データに対応する前記音声情報の前記関連度情報の関連度合いを高い度合いに設定する
    ことを特徴とした音声出力制御装置。
  40. 請求項37ないし請求項39のいずれかに記載の音声出力制御装置であって、
    前記出力制御手段により前記スピーカから前記音声データを出力させた時点より後に位置する前記外部音データに基づいて、前記出力された音声データに対する評価を認識し、この評価の内容に対応して前記音声データの関連度情報の関連度合いを変更する処理をする変更手段を具備した
    ことを特徴とした音声出力制御装置。
  41. 集音した外部音に応じて音声を出力させる制御をする音声出力制御システムであって、
    請求項1ないし請求項27のいずれかに記載の音声情報生成装置で生成された音声情報、または、請求項33ないし請求項35のいずれかに記載の音声情報のデータ構造を複数記憶するテーブル構造に構築された記憶手段と、
    この記憶手段にネットワークを介して前記音声情報を取得可能に接続され、前記外部音に関する一連の外部音データを取得する外部音取得手段、前記取得した外部音データの外部音に含まれる音声と同一の音声に対応する前記音声情報を前記ネットワークを介して前記記憶手段から検索する音声検索手段、前記検索により取得した前記音声情報のうち、前記関連度情報に基づいて所定の前記音声データを選出する選出手段、および、前記選出された音声データをスピーカから出力させる制御をする出力制御手段を備えた端末装置と、
    を具備したことを特徴とした音声出力制御システム。
JP2004329516A 2004-11-12 2004-11-12 音声情報生成装置、その方法、そのプログラム、そのプログラムを記録した記録媒体、音声情報のデータ構造、音声情報を記録した記録媒体、音声出力制御装置、および、そのシステム Pending JP2006139133A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004329516A JP2006139133A (ja) 2004-11-12 2004-11-12 音声情報生成装置、その方法、そのプログラム、そのプログラムを記録した記録媒体、音声情報のデータ構造、音声情報を記録した記録媒体、音声出力制御装置、および、そのシステム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004329516A JP2006139133A (ja) 2004-11-12 2004-11-12 音声情報生成装置、その方法、そのプログラム、そのプログラムを記録した記録媒体、音声情報のデータ構造、音声情報を記録した記録媒体、音声出力制御装置、および、そのシステム

Publications (1)

Publication Number Publication Date
JP2006139133A true JP2006139133A (ja) 2006-06-01

Family

ID=36619995

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004329516A Pending JP2006139133A (ja) 2004-11-12 2004-11-12 音声情報生成装置、その方法、そのプログラム、そのプログラムを記録した記録媒体、音声情報のデータ構造、音声情報を記録した記録媒体、音声出力制御装置、および、そのシステム

Country Status (1)

Country Link
JP (1) JP2006139133A (ja)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08187368A (ja) * 1994-05-13 1996-07-23 Matsushita Electric Ind Co Ltd ゲーム装置、入力装置、音声選択装置、音声認識装置及び音声反応装置
JPH0981184A (ja) * 1995-09-12 1997-03-28 Toshiba Corp 対話支援装置
JP2003029782A (ja) * 2001-07-19 2003-01-31 Mitsubishi Electric Corp 対話処理装置及び対話処理方法並びにプログラム
WO2003021943A1 (fr) * 2001-08-28 2003-03-13 Matsushita Electric Industrial Co., Ltd. Procede pour recevoir des diffusions
JP2004073668A (ja) * 2002-08-21 2004-03-11 P To Pa:Kk 競走遊技装置、競走遊技制御方法及びプログラム
JP2006139134A (ja) * 2004-11-12 2006-06-01 Pioneer Electronic Corp 音声出力制御装置、音声出力制御システム、それらの方法、それらのプログラム、および、それらのプログラムを記録した記録媒体

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08187368A (ja) * 1994-05-13 1996-07-23 Matsushita Electric Ind Co Ltd ゲーム装置、入力装置、音声選択装置、音声認識装置及び音声反応装置
JPH0981184A (ja) * 1995-09-12 1997-03-28 Toshiba Corp 対話支援装置
JP2003029782A (ja) * 2001-07-19 2003-01-31 Mitsubishi Electric Corp 対話処理装置及び対話処理方法並びにプログラム
WO2003021943A1 (fr) * 2001-08-28 2003-03-13 Matsushita Electric Industrial Co., Ltd. Procede pour recevoir des diffusions
JP2004073668A (ja) * 2002-08-21 2004-03-11 P To Pa:Kk 競走遊技装置、競走遊技制御方法及びプログラム
JP2006139134A (ja) * 2004-11-12 2006-06-01 Pioneer Electronic Corp 音声出力制御装置、音声出力制御システム、それらの方法、それらのプログラム、および、それらのプログラムを記録した記録媒体

Similar Documents

Publication Publication Date Title
US11237793B1 (en) Latency reduction for content playback
US20200211554A1 (en) Context-based device arbitration
US10448115B1 (en) Speech recognition for localized content
US20190371329A1 (en) Voice enablement and disablement of speech processing functionality
JP5118280B2 (ja) 自然言語インターフェースコントロールシステム
KR101788500B1 (ko) 이름 발음을 위한 시스템 및 방법
US7826945B2 (en) Automobile speech-recognition interface
JP3955880B2 (ja) 音声認識装置
US9123327B2 (en) Voice recognition apparatus for recognizing a command portion and a data portion of a voice input
US20070239455A1 (en) Method and system for managing pronunciation dictionaries in a speech application
JP4987682B2 (ja) 音声チャットシステム、情報処理装置、音声認識方法およびプログラム
US10143027B1 (en) Device selection for routing of communications
JP5500100B2 (ja) 音声案内システム
JP2001272991A (ja) 音声対話方法及び音声対話装置
JP2006139134A (ja) 音声出力制御装置、音声出力制御システム、それらの方法、それらのプログラム、および、それらのプログラムを記録した記録媒体
US11172527B2 (en) Routing of communications to a device
JP2006139133A (ja) 音声情報生成装置、その方法、そのプログラム、そのプログラムを記録した記録媒体、音声情報のデータ構造、音声情報を記録した記録媒体、音声出力制御装置、および、そのシステム
Goto et al. Speech spotter: on-demand speech recognition in human-human conversation on the telephone or in face-to-face situations.
US11161038B2 (en) Systems and devices for controlling network applications
US10854196B1 (en) Functional prerequisites and acknowledgments
JP3285704B2 (ja) 音声対話のための音声認識方法及び装置
JP3846500B2 (ja) 音声認識対話装置および音声認識対話処理方法
US11176930B1 (en) Storing audio commands for time-delayed execution
JP2005241767A (ja) 音声認識装置
US12033632B2 (en) Context-based device arbitration

Legal Events

Date Code Title Description
RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20070814

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20071005

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100527

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100601

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20101109