JP4198040B2 - データ利用装置及びデータ利用方法 - Google Patents

データ利用装置及びデータ利用方法 Download PDF

Info

Publication number
JP4198040B2
JP4198040B2 JP2003406779A JP2003406779A JP4198040B2 JP 4198040 B2 JP4198040 B2 JP 4198040B2 JP 2003406779 A JP2003406779 A JP 2003406779A JP 2003406779 A JP2003406779 A JP 2003406779A JP 4198040 B2 JP4198040 B2 JP 4198040B2
Authority
JP
Japan
Prior art keywords
data
wire
word
voice
processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2003406779A
Other languages
English (en)
Other versions
JP2005165901A (ja
Inventor
利佳 久米
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kenwood KK
Original Assignee
Kenwood KK
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kenwood KK filed Critical Kenwood KK
Priority to JP2003406779A priority Critical patent/JP4198040B2/ja
Publication of JP2005165901A publication Critical patent/JP2005165901A/ja
Application granted granted Critical
Publication of JP4198040B2 publication Critical patent/JP4198040B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

この発明は、データ利用装置及びデータ利用方法に関する。
市販の機械や電気機器には、通常、その使用法やトラブルシューティングの仕方などが記されたマニュアルが添付される。マニュアルに記載されている事柄は一般にいずれも重要なものであり、ユーザにはマニュアルを熟読することが求められる。
しかし、マニュアルを読みこなすのは難しいことであり、重要な事柄が多く記されているにもかかわらず、読まれずに放置されることも少なくない。
このため、マニュアルなどのテキストを容易に読めるようにするため、音声を用いてテキスト検索を行う技術が考えられている(例えば、特許文献1参照)。
特開2003−271629号公報
しかし、検索の対象は必ずしも当初から明確なわけではないため、上述の手法では、ユーザがマニュアルから得たい知識を必ずしも適切に抽出することができない場合があった。
この発明は上記実状に鑑みてなされたものであり、データの集合から得たい情報を適切に抽出することができるデータ利用装置及びデータ利用方法を提供することを目的とする。
上記目的を達成するため、この発明の第1の観点にかかるデータ利用装置は、
所定の語句の入力処理と次の処理との遷移を定義するワイヤと前記遷移の確率を示す重み係数とを対応付けたワイヤデータを記憶するワイヤ記憶手段と、
音声データを取得し、当該音声データに音声認識を施すことにより、当該音声が表す語句の候補と各候補の尤度とを特定する音声認識手段と、
前記音声認識手段が特定した候補のうち、前記ワイヤ記憶手段に格納されている各語句について、前記各語句の入力処理を起点とするワイヤに付された重み係数と前記音声認識手段によって特定された語句のうち前記ワイヤ記憶手段に格納されている語句の尤度との積を求め、前記積に基づいて前記ワイヤ記憶手段に記憶されているワイヤのうちいずれかのワイヤを特定し、前記ワイヤ記憶手段を参照して、特定したワイヤが定義する遷移の遷移先の処理を判別し、判別した処理を示す情報を出力するデータ抽出手段と、を備える、
ことを特徴とする。
前記ワイヤ記憶手段は、所定の語句が入力されたときに、前記音声の発話者が解決を欲する問題を明らかにするための質問事項を表す音声データを生成して出力する音声データ出力処理と該音声データ出力処理を結ぶワイヤとを含み、
前記データ抽出手段は、前記音声認識手段によって所定の語句が入力され、前記音声認識手段が特定した候補のうち、前記ワイヤ記憶手段に格納されている各語句について、前記各語句の入力処理を起点とするワイヤに付された重み係数と前記音声認識手段によって特定された語句のうち前記ワイヤ記憶手段に格納されている語句の尤度との積を求め、前記積に基づいて前記音声データ出力処理を結ぶワイヤが特定されたときに、次の処理として登録されている音声データ出力処理の質問事項を表す音声データを生成して出力する手段を備えるものであってもよい。
前記データ抽出手段によって出力された前記情報を取得し、該情報に基づいて、前記判別した処理を実行する処理手段をさらに備え
前記ワイヤ記憶手段は、前記処理手段が前記判別した処理を実行したときに、前記処理手段が実行した処理への遷移を定義するワイヤに付された前記重み係数をインクリメントするものであってもよい。
また、この発明の第2の観点にかかるデータ利用方法は、
音声認識手段が、音声データを取得し、前記音声データに音声認識を施すことにより、前記音声が表す語句の候補と各候補の尤度とを特定する音声認識ステップと、
データ抽出手段が、前記音声認識ステップで特定された候補のうち、予め格納されている各語句について、所定の語句の入力処理と次の処理との遷移を定義する予め格納されたワイヤのうち前記各語句の入力処理を起点とするワイヤに付された前記遷移の確率を示す重み係数と前記音声認識ステップで特定された語句のうち前記予め格納されている語句の尤度との積を求め、前記積に基づいて、予め格納されているワイヤのうちいずれかのワイヤを特定し、特定したワイヤで示された遷移先の処理を判別し、判別した処理を示す情報を出力するデータ抽出ステップと、を備える
ことを特徴とする。
この発明によれば、データの集合から得たい情報を適切に抽出することができるデータ利用装置及びデータ利用方法が実現される。
以下、図面を参照して、この発明の実施の形態を、車両のマニュアルを利用するためのマニュアル利用システムを例として説明する。
図1は、このマニュアル利用システムの構成を示すブロック図である。図示するように、このマニュアル利用システムは、音声入力部1と、言語解析部2と、音声合成処理部3と、音声出力部4と、マニュアル記憶部5と、表示入力部7と、エージェント処理部6とより構成されている。音声入力部1と言語解析部2とは互いに接続されており、音声合成処理部3と音声出力部4とは互いに接続されており、言語解析部2、音声合成処理部3、マニュアル記憶部5及び表示入力部7は、専用のケーブルあるいはLAN(Local Area Network)を介してエージェント処理部6に接続されている。
音声入力部1は、例えば、マイクロフォン、AF(Audio Frequency)増幅器、サンプラー及びA/D(Analog-to-Digital)コンバータなどより構成されている。音声入力部1は、自己のマイクロフォンが集音した音声を表す音声信号を増幅し、サンプリングしてA/D変換することにより、当該音声を表すデジタル形式の音声データを生成する。そして、この音声データを言語解析部2へと供給する。
言語解析部2、音声合成処理部3及びエージェント処理部6は、それぞれ、例えば、CPU(Central Processing Unit)等からなるプロセッサと、このプロセッサが実行するプログラムを記憶するハードディスク装置等の不揮発性メモリと、このプロセッサのワークエリアとなる記憶領域を有するRAM(Random Access Memory)等の揮発性メモリとより構成されている。
なお、言語解析部2、音声合成処理部3及びエージェント処理部6の一部又は全部の機能を単一のプロセッサや単一の不揮発性メモリや単一の揮発性メモリが行うようにしてもよい。
言語解析部2は、音声入力部1より供給された音声データに音声認識を施す処理を行うことにより、この音声データが表している可能性のある単語の候補と、この候補の尤度(スコア)とを特定する。音声認識の手法は任意であり、また、候補は複数特定されてよい。そして、特定した候補及び当該候補のスコアを示すデータ(以下、単語データと呼ぶ)を生成し、エージェント処理部6へと供給する。
音声合成処理部3の不揮発性メモリは、更に、単語の波形を表すデータを記憶する音片合成用データベースと、音素の波形を表すデータを記憶する素片合成用データベースとを記憶する。そして、音声合成処理部3は、音片合成用データベースや素片合成用データベースに格納されているデータを用いて、録音編集方式や規則合成方式の手法により、エージェント処理部6より供給された文章データを読み上げる音声を表すデジタル形式の音声データを生成する。そして、生成した音声データを音声出力部4に供給する。
音声出力部4は、例えば、D/A(Digital-to-Analog)コンバータ、AF増幅器及びスピーカなどより構成されている。音声出力部4は、音声合成処理部3より供給された音声データをD/A変換して増幅し、得られたアナログ信号を用いてスピーカを駆動することにより、当該音声データが表す音声を再生する。
マニュアル記憶部5は、例えばハードディスク装置等の不揮発性メモリより構成されている。言語解析部2、音声合成処理部3あるいはエージェント処理部6の不揮発性メモリが、マニュアル記憶部5の機能を行ってもよい。
マニュアル記憶部5は、車両(例えば自動車)のマニュアルを構成するテキストを表すテキストデータや、マニュアルを構成する挿絵や写真を表す画像データを記憶している。また、マニュアル記憶部5は、それぞれの画像データに対応付けて、例えば、当該画像データが表す画像のキャプションを表すテキストデータなどを記憶している。キャプションは、1個の画像の一部に対して付されていてもよいし、1個の画像に複数のキャプションが付されていてもよい。
マニュアルは、例えば、
(1) 車両の車種、車名、型式、寸法、重量、乗車定員、燃料消費率、及びその他車両についての基本的な情報や、
(2) 備え付けのエアコンやオーディオ機器及びその他の附属機器の操作法を紹介する情報や、
(3) 車内各インテリア部品、リモコンキー、トランク、走行装置などの名称、操作法点検法を紹介する情報や、
(4) 様々な道路状況(降雨時、積雪時、濃霧時など)における運転についてのアドバイスや整備点検の仕方について指示する情報や、
(5) ライトが点灯しなくなった場合の対処法など、トラブル時の対処法を指示する情報、
などの情報を含んでいる。
表示入力部7は、タッチパネル等、データの入力を受け付ける機能を有する表示装置より構成されており、エージェント処理部6が供給する指示に従った文字や図形を自己の表示画面上に表示する一方、操作者が表示画面を押す操作を加えると、この操作に従ったデータをエージェント処理部6に供給する。
エージェント処理部6の説明に戻ると、エージェント処理部6の不揮発性メモリは、更に、単語データベースを記憶する。単語データベースは、単語を示すデータと、この単語がどのような概念の下にグルーピングされているかを示すための単語グルーピング用のフラグ1個以上とを、互いに対応付けた形で格納するデータベースである。
1個の単語に対応付けられている各フラグは、互いに異なる概念に対応付けられている。そして、フラグが所定の値(以下では、この値は“1”であるとする)を示す場合は、このフラグに対応付けられた単語が、このフラグに対応付けられた概念の下にグルーピングされていることを示す。一方、このフラグが他の値(例えば“0”)を示す場合は、この単語がこの概念の下にはグルーピングされていないことを示す。
図2は、グルーピング用のフラグの具体例を模式的に示す図である。図2に示すように、単語「上がる」、「暑い」及び「開ける」に、単語グルーピング用のフラグが4ビットずつ対応付けられているものとする。また、これらのいずれの単語に対応付けられたビット群についても、その最上位のフラグが「温度」という概念に対応付けられており、上位から2ビット目のフラグが「エアコンの操作」という概念に対応付けられており、上位から3ビット目のフラグが「窓の開閉」という概念に対応付けられており、最下位のフラグが「故障」という概念に対応付けられているとする。一方、図示するように、単語「上がる」に対応付けられている4ビットのフラグ群の値が2進数“1110”であり、単語「暑い」に対応付けられているフラグ群の値が2進数“1100”であり、単語「開ける」に対応付けられているフラグ群の値が2進数“1010”であるとする。
この場合、このフラグ群は、概念「温度」の下には単語「上がる」、「暑い」及び「開ける」がグルーピングされており、概念「エアコンの操作」の下には単語「上がる」及び「暑い」がグルーピングされており、概念「窓の開閉」の下には単語「暑い」及び「開ける」がグルーピングされており、概念「故障」の下には単語「上がる」、「暑い」又は「開ける」のいずれもグルーピングされていないことを示す。
エージェント処理部6の不揮発性メモリは、更に、処理項目データベース及びワイヤデータベースを記憶している。
処理項目データベースは、エージェント処理部6が行うトリガ取得処理、判別処理及び入出力処理の内容を、処理項目(ポインタ)毎に記述するデータを格納したデータベースである。
トリガ取得処理の内容を記述するデータは、一連の処理を開始させるトリガとして取得するデータの内容を指定するデータと、後述する進行方向の確率係数とからなっている。取得するデータは任意のものであってよく、例えば、言語解析部2より供給される上述の単語データであればよい。あるいは、エージェント処理部6自身が行う処理から引き渡されるデータであってもよい。また、トリガ取得処理で取得されるデータが単語データである場合は、当該単語データが表す単語に代えて、当該単語データが表す単語がグルーピングされている概念が記述されてもよい。ただし、トリガ取得処理の内容は、複数のトリガ取得処理が互いに同一の単語を表す単語データを取得することがないように記述されるものとする。
判別処理の内容を記述するデータは、判別条件と、判別結果としてとり得る結果のリストと、後述する戻り方向の確率係数とを、判別処理別に記述したデータを含んでいる。また、判別処理の内容を記述するデータは、進行方向の確率係数を、とり得る判別結果毎に記述したデータを含んでいる。
判別処理では、判別に用いるデータを、判別を行うに先立って、この判別に用いるデータを任意の取得源から取得する場合があってもよい。取得源としては、例えば、言語解析部2や、エージェント処理部6が実行する他の処理や、入出力対象機器群5に属する機器や、その他外部の機器などが考えられる。そしてこの場合、判別処理の内容を記述するデータは、例えば、判別に用いるデータの取得源を指定するデータを更に含んでいればよい。
また、判別処理では、所定のデータを、判別に先立って所定の出力先に出力するようにしてもよい。具体的には、例えば、所定の質問を表すデータを、判別に先立って音声合成処理部3に引き渡す、等が考えられる。判別処理において所定のデータを判別に先立って所定のデータを出力する場合、判別処理の内容を記述するデータは、例えば、出力するデータの内容と、このデータの出力先とを指定するデータを更に含んでいればよい。
入出力処理の内容を記述するデータは、入力あるいは出力するデータの内容を指定するデータからなっている。入力ないし出力するデータは任意の内容を有していてよく、例えば、出力するデータは、音声合成処理部3を介して音声出力部4に発生させる音声の読みを表すデータや外部の機器を制御する制御信号であってもよいし、入力するデータは外部の機器から供給されるデータであってもよい。
ワイヤデータベースは、複数の処理間の遷移を記述するデータ(以下、このデータをワイヤと呼ぶ)の集合からなっている。ワイヤは、例えば図3に示すような書式で記述されたデータからなっており、図示するように、先行する処理から後続する処理への遷移について、当該先行の処理と、当該後続の処理と、当該遷移に対して与えられた重み係数と、を指定するデータである。ただし、先行の処理が判別処理である場合は、当該判別処理のどの判別結果からの遷移であるか、まで記述される必要がある。
そして、エージェント処理部6は、処理項目データベース及びワイヤデータベースが全体として表しているフローを実行する。
具体的には、例えば、エージェント処理部6は、「メーターパネルについて知りたい」という語句を表す単語データの集合が言語解析部2より供給されると、これらの単語データに応答してマニュアル記憶部5にアクセスし、マニュアルの記載のうちから、メーターパネル全般を概説するための画像を表す画像データを索出して、この画像を表示入力部7に表示させる。該当する画像としては、例えば、メータパネルのパネル面全体を写した写真等が考えられる。
そして、例えばパネル面全体を写した写真について、この写真に写っているそれぞれのメータに、当該メータを説明するキャプションが付されていたとする。そして、ユーザが、表示入力部7の表示画面上に表示されている当該メータを押すと、エージェント処理部6は例えば、この操作に応答してマニュアル記憶部5にアクセスし、マニュアルの記載のうちから、当該メータを説明する部分を表示させる。
また、エージェント処理部6は、例えば「この車の燃料消費はどのくらい?」という語句を表す単語データの集合を言語解析部2より供給されると、これらの単語データに応答してマニュアル記憶部5にアクセスし、マニュアルの記載のうちから、車両の燃費を説明する部分のテキストデータを索出して、音声合成処理部3に供給する。この結果、音声出力部4は、この部分を読み上げる音声を発生する。
また、エージェント処理部6は、例えば「エアコンの風量を調節するボタンはどれ?」という語句を表す単語データの集合を言語解析部2より供給されると、これらの単語データに応答してマニュアル記憶部5にアクセスし、マニュアルの記載のうちから、エアコンの風量を調節するボタンを写している画像の画像データを索出して、表示入力部7に表示させる。
また、エージェント処理部6は、例えば「エアコンの風量を調節するボタンはどれ?」という語句を表す単語データの集合を言語解析部2より供給されると、これらの単語データに応答してマニュアル記憶部5にアクセスし、マニュアルの記載のうちから、エアコンの風量を調節するボタンを写している画像の画像データを索出して、表示入力部7に表示させる。
また、エージェント処理部6は、例えば「リアシートを倒したいな」という語句を表す単語データの集合を言語解析部2より供給されると、これらの単語データに応答してマニュアル記憶部5にアクセスし、マニュアルの記載のうちから、リアシートの倒し方を図説する画像の画像データを索出して、表示入力部7に表示させる。そして、ユーザが例えば表示入力部7を操作して、操作の続きを知りたい旨をこのマニュアル利用システムに通知すると、エージェント処理部6は、この操作に応答してマニュアル記憶部5にアクセスし、マニュアルの記載のうちから、リアシートの倒し方の続きを図説する画像の画像データを索出して、表示入力部7に表示させる。
また、エージェント処理部6は、例えば「雪道を走るのは心配だな」という語句を表す単語データの集合を言語解析部2より供給されると、これらの単語データに応答してマニュアル記憶部5にアクセスし、マニュアルの記載のうちから、雪道の走行上の注意事項をを索出して、索出した注意事項から、ユーザへの質問事項を抽出する。そして、例えば注意事項が「雪道は滑りやすく注意が必要。スノーチェーンの装着が必要。」というものであったとして、エージェント処理部6がこの注意事項から「スノーチェーンは装着した?」という質問事項を抽出したとする。この場合、エージェント処理部6は、質問事項「スノーチェーンは装着した?」という文章を表すデータを音声合成処理部3に供給し、この質問事項を読み上げる音声を音声出力部4に発生させる。
その後、「肯定」という概念の下にグルーピングされた単語を表す単語データが言語解析部2より供給されると、エージェント処理部6はこの単語データに応答してマニュアル記憶部5を検索し、スノーチェーン装着時の走行上の注意点を解説した部分のテキストデータを索出して、音声合成処理部3を介し、音声出力部4にこの部分を読み上げさせる。一方、「否定」という概念の下にグルーピングされた単語を表す単語データが言語解析部2より供給されると、エージェント処理部6はこの単語データに応答してマニュアル記憶部5を検索し、スノーチェーンの装着法を解説した部分のテキストデータを索出して、音声合成処理部3を介し、音声出力部4にこの部分を読み上げさせる。
また、エージェント処理部6は、例えば「ルームライトが切れちゃった。どうしよう」という語句を表す単語データの集合を言語解析部2より供給されると、これらの単語データに応答してマニュアル記憶部5にアクセスし、マニュアルの記載のうちから、用意すべきルームライトの種類を記載した部分を索出して、索出した部分を、音声合成処理部3を介し、音声出力部4に読み上げさせる。その後、「用意したら次はどうするの?」という語句を表す単語データの集合が言語解析部2より供給されると、エージェント処理部6はこれらの単語データに応答してマニュアル記憶部5を検索し、ルームライトの交換法を解説した部分のテキストデータを索出して、音声合成処理部3を介し、音声出力部4にこの部分を読み上げさせる。
なお、エージェント処理部6は、例えば言語解析部2が単語データを複数供給した場合などにおいては、複数の判別処理を並行して行う。またこの場合、エージェント処理部6は同一の単語を入力の対象とする処理(例えば、トリガ取得処理や、判別処理におけるデータの入力)が複数があって、該当する単語を表す単語データが言語解析部2より供給された場合は、これらの処理すべてを並行して行う。
尚、上述のマニュアルは、交換可能なように構成してもよいし、追加可能又は削除可能なように構成してもよい。
また、新たな機能又は新たな機器が付加されたことを検出したとき、これに対応してマニュアルの新たな部分が利用可能になされるようにしてもよい。
更に、新たなマニュアルの部分は、予め他のマニュアルデータと共にハードディスク等に記録されているものとし、新たな機能又は新たな機器が付加されたことを検出されるまでは利用不可能な状態になされているようにしてもよい。
また、新たなマニュアルの部分は、新たな機能又は新たな機器が付加されたことを検出されたとき、ネットワークを介して所定のデータをダウンロードしてなるものであってもよい。
また、エージェント処理部6は、図4にフローを示すように、先行する第1の処理P1を実行して後続の第2の処理P2に遷移するようにワイヤW01により定義されており、また、第2の処理P2を実行して後続の第3の処理P3に遷移するようにワイヤW03によって定義されているとき、以下の処理を行う。(なお、図示するように、処理P1〜P3のいずれについても、各進行方向の確率係数はいずれも0.5であるものとする。)
まず、エージェント処理部6が第1の処理P1に到達しているとき、エージェント処理部6は、ワイヤW01、W03及びW05のそれぞれの重み係数を計算し、計算結果をワイヤW01、W03及びW05に書き込む。これら値は、各処理に予め設定されている進行方向の確率係数によって決定される。
具体的には、処理P1に処理が到達したとき、ワイヤW01の重み係数は、処理P1のワイヤに係る確率係数の値すなわち0.5となる。
処理P2のワイヤW03の重み係数は、処理P1のワイヤW1に係る確率係数0.5に処理P2のワイヤW03に係る確率係数0.5を乗じた結果すなわち0.25となる。
ワイヤW05の重み係数は、処理P1のワイヤW1に係る確率係数0.5に処理P2のワイヤW03に係る確率係数0.5を乗じた結果に更に処理P3のワイヤW5に係る確率係数0.5を乗じた結果、すなわち0.125となる。
このようにして、ある処理を基点としたときのそれぞれのワイヤの重み係数が計算される。よって、現在の状態が遷移すると、現在の処理を基点にしてその都度重み係数が計算されることになる。
具体的には、現在の状態が処理P2に遷移すると、ワイヤW03の重み係数は、処理P2のワイヤW03に係る確率係数に等しい値0.5となり、ワイヤW05の重み係数は処理P2のワイヤW03に係る確率係数0.5と処理P3のワイヤW5に係る確率係数0.5との積すなわち0.25となる。またこのとき、エージェント処理部6は、逆方向、つまり処理P1に戻る方向に係るワイヤW01の重み係数も再度書き込まれる。処理P2に遷移した場合では、ワイヤW01に係る戻り方向の確率係数0.1がそのままワイヤW01の重み係数となる。処理P3に遷移した場合は更に、ワイヤW03に係る戻り方向の確率係数0.1がそのままワイヤW03の重み係数となる。そして、処理P3に遷移した状態におけるワイヤW01の重み係数は、処理P3に遷移した状態におけるワイヤW03の重み係数0.1に、処理P2の戻り方向の確率係数0.1を乗じた値すなわち0.01となる。
重み係数の計算は、関連するフローの処理のみではなく、全てのフローの全てのワイヤについて設定される。ここで現在の処理に関連のないワイヤについては、予め定められた低い計数値を割り当てるようにすればよい。しかし、特にトリガ取得処理を先行の処理とするワイヤについては、重み係数をある程度高く設定するようにする。こうすることによって、直前までなされていた会話と著しく異なる内容の会話にもジャンプすることが可能になる。
そして、エージェント処理部6は、判別条件に係る(1個又は複数個の)単語データが言語解析部2より供給されると、以下の処理を行う。まず、供給された単語データが示す単語の尤度(スコア)と、各ワイヤの重み係数との積を計算する。
例えば、図4に示すフローを実行している場合において、単語「暑い」に対するスコアが80%で、単語「窓」に対するスコアが50%であることを示す単語データが入力されたとし、また、単語「暑い」を示す単語データを入力する処理を先行の処理とするワイヤW01の重み係数が0.5、単語「窓」を示す単語データを入力する処理を先行の処理とするワイヤW05の重み係数が0.125であったとする。この場合、ワイヤW01及びW05について求められる積は、数式1及び2に示すとおりとなる。
(数1) ワイヤW01についての積:「暑い」に対するスコア80%×ワイヤW01の重み係数0.5=40
(数2) ワイヤW05についての積:「窓」に対するスコア50%×ワイヤW05の重み係数0.125=6.25
エージェント処理部6は、スコアと重み係数との積を求める上述の処理を、フローが有するすべてのワイヤについて行う。その結果、例えばワイヤW1について求めた積が最も高い値を示した場合、入力された単語データは単語「暑い」を示すものであったと認識して、ワイヤW01が後続の処理としている処理P2に遷移することになる。
なお、トリガ取得処理からの遷移に対しては、ある程度高い重み係数を設定しておくとよい。具体的には、例えば図3にも示すように、図4のフローにおいて、「窓を開けて」という単語を示す単語データを取得するトリガ取得処理TG02からの遷移に対しては、例えば重み係数0.5を与えておく。そうすると、例えばエージェント処理部6の処理がトリガ取得処理TG01に係属している場合において、ユーザーが「窓を開けて」と発音し、例えば単語「窓を開けて」に対するスコアが90%である単語データが得られれば、このスコアと、「ユーザが「窓を開けて」と言ったか否かの判断」に係るワイヤW5の重み係数との積は、90%×0.5すなわち45となる。この値が他のワイヤとの積の値と相手は通常得られないような大きな値であれば、入力された音声は「窓を開けて」であったと認識され、エージェント処理部6の処理が入出力処理EX03にジャンプする可能性が高くなる。一方で、他のワイヤの重み係数を極めて低く設定しておけば、これら他のワイヤにより定義されている遷移が起こる可能性は極めて低くなり、結果として、ある程度想定される会話の流れに沿って認識率を向上させることができる。
この実施の形態では、戻り方向への遷移も起こり得る。しかし、現実的には会話を戻すことは好ましくないことが多い。そこで、戻り方向の確率係数は、進行方向の確率係数に比べて低い値に設定するようにすればよい。そうすると、入力された音声から高いスコアの音声データが仮に得られても、戻り方向の確率係数が重み係数として書き込まれたワイヤについて求めた積は低い値となるため、戻り方向への遷移の可能性を低く抑えることができる。
また、エージェント処理部6は、求めた積の値が所定の条件に合致しないような処理(たとえば、積の値が所定値に達しないような処理)は、遷移を実行する対象から除外するよう取り扱ってもよい。
なお、例えば図3に示しているように、ワイヤは、処理項目から処理項目への遷移という形で遷移を定義する。そして、ワイヤを図3に示すような形態で記述してデータベースに格納することにより、各処理項目同士の関係を、あたかもコンピュータのマクロ処理のように定義することが可能になる。これによって、各処理項目を容易に接続することができる。
また、トリガとなる処理項目は、実際には接続されるワイヤに係る認識対象単語等(他の入力対象機器群からの入力の場合もあり得る)のスコアの判定になるので、ワイヤにおいてトリガ処理項目はワイヤの開始点として定義されず、ワイヤそのものが遷移元として定義されることになる。
更に、上述のように各処理項目の接続関係をワイヤによって定義することによって、簡単にワイヤを追加することができる。例えば、「暑い」という音声入力の後に、ユーザーが休憩することを意図して「ファミリーレストランを探して」という音声を入力する機会が多い場合、ファミリーレストランの検索処理項目に対して自動でワイヤを追加する。そうすると、ワイヤが自動で追加された後には、ファミリーレストラン検索処理項目に接続されたワイヤの重み係数をある程度大きくすることで、当該入力「ファミリーレストランを探して」に適切に対応することができるようになる。(ただしこの場合、エージェント処理部6は、例えばファミリーレストランの位置を示す情報を含んだ地図データ等を記憶し、あるいは外部の地図データ等にアクセスするものとする。)
このワイヤの自動追加は、ある処理項目からある処理項目へのジャンプの回数を計数し、これが所定回数に達したときに自動で行うようにすればよい。
以上説明したこのマニュアル利用システムでは、入力される音声等に対して、図4で示したフローチャートで説明したワイヤと処理項目の関係、ワイヤに設定される条件、また、重み係数(確率係数も同様)が適宜適用される。具体的には、例えば、ユーザが「メーターパネルについて知りたい」と音声入力部1に音声入力すると、言語解析部2は単語データベースを参照して、それぞれの単語に対するスコアを算出する。算出したスコアは単語データとしてエージェント処理部6に出力され、該当する単語が設定されたワイヤにスコアを設定する。スコアが供給されたワイヤは、それぞれ対応する重み係数とスコアを乗算し、最終的な判別結果を得る。得られた判別結果のうち、最も高い値を示す単語が入力された音声であると認識する。つまり、ここで得られた判別結果のうち、最も高い値を示す単語が「メーターパネルについて知りたい」であった場合に、入力された音声は「メーターパネルについて知りたい」であったと認識することになる。そして、対応するワイヤが選択され、当該ワイヤが指示する処理に状態が遷移される。以下、同様にして処理が進められる。尚、ワイヤに対して、同様の意味の異なる単語を複数設定しておけば、ユーザがそのときの気分で発した言葉でも適切に対応することができる。例えば、「メーターパネルについて知りたい」「フロントパネルの見方は?」などを1つのワイヤに条件としての単語を設定しておく。そうすれば、いずれの音声で指示がなされても、適切に当該ワイヤが選択されることになり、自然な会話でこのマニュアル利用システムに指示を出すことができる。
以上説明したこのマニュアル利用システムは、処理の内容を示すデータやワイヤが適切に記述されれば、得たい情報の内容をユーザが完全に特定することを必ずしも必要とせずに、ユーザが発した言語やその他ユーザが加えた操作に応答し、この言語からユーザの欲求を推測し、この欲求を満たすためにどのような情報を抽出すればよいかを適切に判断して、判断結果に従った情報を抽出して提供することができるようになる。
なお、このマニュアル利用システムの構成は上述のものに限られない。
例えば、単語データベースは、必ずしも単語を示すデータのみならず、複数の単語からなる語句を示すデータを単語データベースの要素として記憶するようにしてもよいし、単語の一部あるいは音素を示すデータを単語データベースの要素として記憶するようにしてもよい。また、単語等は必ずしも特定の概念の下にグルーピングされている必要はなく、グルーピングを行う場合も、グルーピングを行うために用いられるデータは、必ずしもフラグの集合の形をとっていなくてもよい。
また、エージェント処理部6は、ワイヤに記述された重み係数を、過去に当該ワイヤが表す遷移を実行した数などに基づき所定の基準に従って変化させ、重み係数が変化後の値となるようにワイヤを書き換えてもよい。
具体的には、例えば、ワイヤデータベースに、それぞれのワイヤについて、当該ワイヤが表す遷移が実行された回数を記憶しておく。そしてエージェント処理部6は、当該遷移が新たに行われる毎に、この回数の値を書き換えることにより、この回数の値を1ずつインクリメントし、それぞれのワイヤに記述された重み係数を、例えば、当該ワイヤについて記憶された回数に比例した値と書き換える。
また、エージェント処理部6は、判別処理や入出力処理において出力するデータを、これらの処理に引き渡されたデータや、これらの処理に伴って入力したデータや、その他任意の条件に従って変化させるようにしてもよい。
エージェント処理部6は、1個の入力処理や1個の判別処理において、連続して発話される等した複数の単語データを一括して取得するようにしてよい。また、エージェント処理部6は、一括して取得した複数の単語データがどの概念の下で同一のグループ内にグルーピングされているかを特定し、特定した概念が所定の概念に合致する場合にのみ、取得した単語データの一部または全部を処理に用いるものとしてもよい。
また、エージェント処理部6は、トリガ取得処理、判別処理、入出力処理等の各種処理とワイヤとが全体として形成するフローを分担して行う、互いに接続された複数のデータ処理装置(例えば、コンピュータ等)から構成されていてもよい。この場合、解析処理部3を構成するそれぞれのデータ処理装置は、解析処理部3が実行し得るフロー全体のうち、自己が実行する可能性がある部分を表すデータを、処理項目データベースやワイヤデータベースの要素として記憶すれば十分である。そして、それぞれのデータ処理装置が記憶するデータが、当該データ処理装置が実行する部分の処理をマクロ定義するようなデータとなっていれば、複数のデータ処理装置に分散処理を行わせることも容易である。
また、このマニュアル利用システムは、音声入力部1や言語解析部2あるいは音声出力部4も複数備えていてよい。
また、音声入力部1は、たとえば、音声を表すデータが記録された記録媒体(たとえば、フロッピー(登録商標)ディスクや、CD(Compact Disc)や、MO(Magneto-Optical Disk)など)から波形信号を読み出して言語解析部2に供給する記録媒体ドライブ装置(たとえば、フロッピー(登録商標)ディスクドライブや、CD−ROMドライブや、MOドライブなど)を備えていてもよい。
以上、この発明の実施の形態を説明したが、この発明にかかるデータ利用装置は、専用のシステムによらず、通常のコンピュータシステムを用いて実現可能である。
例えば、表示入力部7に接続されていて、マニュアルを構成するテキストデータや画像データを記憶したパーソナルコンピュータに上述の音声入力部1、言語解析部2、音声合成処理部3、音声出力部4、マニュアル記憶部5及びエージェント処理部6の動作を実行させるためのプログラムを格納した記録媒体から該プログラムをインストールすることにより、上述の処理を実行するマニュアル利用システムを構成することができる。そして、このプログラムを実行するパーソナルコンピュータが、図1のマニュアル利用システムの動作に相当する処理として、例えば、図4に示すフローを実行するものとする。
なお、パーソナルコンピュータに上述のマニュアル利用システムの機能を行わせるプログラムは、例えば、通信回線の掲示板(BBS)にアップロードし、これを通信回線を介して配信してもよく、また、このプログラムを表す信号により搬送波を変調し、得られた変調波を伝送し、この変調波を受信した装置が変調波を復調してこのプログラムを復元するようにしてもよい。そして、このプログラムを起動し、OSの制御下に、他のアプリケーションプログラムと同様に実行することにより、上述の処理を実行することができる。
なお、OSが処理の一部を分担する場合、あるいは、OSが本願発明の1つの構成要素の一部を構成するような場合には、記録媒体には、その部分を除いたプログラムを格納してもよい。この場合も、この発明では、その記録媒体には、コンピュータが実行する各機能又はステップを実行するためのプログラムが格納されているものとする。
この発明の実施の形態に係るマニュアル利用システムを示す図である。 グルーピング用のフラグの具体例を模式的に示す図である。 ワイヤを示す図である。 重み係数の設定を説明するための図である。
符号の説明
1 音声入力部
2 言語解析部
3 音声合成処理部
4 音声出力部
5 マニュアル記憶部
6 エージェント処理部
7 表示入力部

Claims (8)

  1. 所定の語句の入力処理と次の処理との遷移を定義するワイヤと前記遷移の確率を示す重み係数とを対応付けたワイヤデータを記憶するワイヤ記憶手段と、
    音声データを取得し、当該音声データに音声認識を施すことにより、当該音声が表す語句の候補と各候補の尤度とを特定する音声認識手段と、
    前記音声認識手段が特定した候補のうち、前記ワイヤ記憶手段に格納されている各語句について、前記各語句の入力処理を起点とするワイヤに付された重み係数と前記音声認識手段によって特定された語句のうち前記ワイヤ記憶手段に格納されている語句の尤度との積を求め、前記積に基づいて前記ワイヤ記憶手段に記憶されているワイヤのうちいずれかのワイヤを特定し、前記ワイヤ記憶手段を参照して、特定したワイヤが定義する遷移の遷移先の処理を判別し、判別した処理を示す情報を出力するデータ抽出手段と、を備える、
    ことを特徴とするデータ利用装置。
  2. 前記ワイヤ記憶手段は、所定の語句が入力されたときに、前記音声の発話者が解決を欲する問題を明らかにするための質問事項を表す音声データを生成して出力する音声データ出力処理と該音声データ出力処理を結ぶワイヤとを含み、
    前記データ抽出手段は、前記音声認識手段によって所定の語句が入力され、前記音声認識手段が特定した候補のうち、前記ワイヤ記憶手段に格納されている各語句について、前記各語句の入力処理を起点とするワイヤに付された重み係数と前記音声認識手段によって特定された語句のうち前記ワイヤ記憶手段に格納されている語句の尤度との積を求め、前記積に基づいて前記音声データ出力処理を結ぶワイヤが特定されたときに、次の処理として登録されている音声データ出力処理の質問事項を表す音声データを生成して出力する手段を備える、
    ことを特徴とする請求項1に記載のデータ利用装置。
  3. 前記データ抽出手段によって出力された前記情報を取得し、該情報に基づいて、前記判別した処理を実行する処理手段をさらに備え、
    前記ワイヤ記憶手段は、前記処理手段が前記判別した処理を実行したときに、前記処理手段が実行した処理への遷移を定義するワイヤに付された前記重み係数をインクリメントする、
    ことを特徴とする請求項1又は2に記載のデータ利用装置。
  4. 新たな機能又は新たな機器が前記データ利用装置に付加されたことを検出する検出手段と、
    前記検出手段が前記新たな機能又は新たな機器が付加されたことを検出したときに、前記ワイヤ記憶手段に記憶されている前記ワイヤデータの交換、追加及び削除のうち少なくともいずれか1つを実行する手段と、をさらに備える、
    ことを特徴とする請求項1乃至3のいずれか一項に記載のデータ利用装置。
  5. 新たな機能又は新たな機器が前記データ利用装置に付加されたことを検出する検出手段と、
    前記検出手段が前記新たな機能又は新たな機器が付加されたことを検出したときに、前記新たな機能又は新たな機器に対応する新たなワイヤデータを利用可能とする手段と、をさらに備える、
    ことを特徴とする請求項1乃至4のいずれか一項に記載のデータ利用装置。
  6. 前記ワイヤ記憶手段は、前記新たなワイヤデータを予め記憶し、
    前記検出手段が新たな機能又は新たな機器が付加されたことを検出するまでは前記ワイヤ記憶手段に記憶されている前記新たなワイヤデータを利用不可能な状態にする手段、をさらに備える、
    ことを特徴とする請求項5に記載のデータ利用装置。
  7. 前記検出手段が前記新たな機能又は新たな機器が付加されたことを検出したとき、ネットワークを介して前記新たなワイヤデータをダウンロードする手段、をさらに備える、
    ことを特徴とする請求項5又は6に記載のデータ利用装置。
  8. 音声認識手段が、音声データを取得し、前記音声データに音声認識を施すことにより、前記音声が表す語句の候補と各候補の尤度とを特定する音声認識ステップと、
    データ抽出手段が、前記音声認識ステップで特定された候補のうち、予め格納されている各語句について、所定の語句の入力処理と次の処理との遷移を定義する予め格納されたワイヤのうち前記各語句の入力処理を起点とするワイヤに付された前記遷移の確率を示す重み係数と前記音声認識ステップで特定された語句のうち前記予め格納されている語句の尤度との積を求め、前記積に基づいて、予め格納されているワイヤのうちいずれかのワイヤを特定し、特定したワイヤで示された遷移先の処理を判別し、判別した処理を示す情報を出力するデータ抽出ステップと、
    を備えることを特徴とするデータ利用方法。
JP2003406779A 2003-12-05 2003-12-05 データ利用装置及びデータ利用方法 Expired - Fee Related JP4198040B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003406779A JP4198040B2 (ja) 2003-12-05 2003-12-05 データ利用装置及びデータ利用方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003406779A JP4198040B2 (ja) 2003-12-05 2003-12-05 データ利用装置及びデータ利用方法

Publications (2)

Publication Number Publication Date
JP2005165901A JP2005165901A (ja) 2005-06-23
JP4198040B2 true JP4198040B2 (ja) 2008-12-17

Family

ID=34729023

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003406779A Expired - Fee Related JP4198040B2 (ja) 2003-12-05 2003-12-05 データ利用装置及びデータ利用方法

Country Status (1)

Country Link
JP (1) JP4198040B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6954950B2 (ja) * 2019-04-26 2021-10-27 Tis株式会社 情報処理システム、情報処理方法、及びプログラム
JP7347244B2 (ja) * 2020-01-29 2023-09-20 トヨタ自動車株式会社 エージェント装置、エージェントシステム及びプログラム

Also Published As

Publication number Publication date
JP2005165901A (ja) 2005-06-23

Similar Documents

Publication Publication Date Title
JP4533845B2 (ja) オーディオ機器制御装置、オーディオ機器制御方法及びプログラム
US8103510B2 (en) Device control device, speech recognition device, agent device, on-vehicle device control device, navigation device, audio device, device control method, speech recognition method, agent processing method, on-vehicle device control method, navigation method, and audio device control method, and program
JP3250559B2 (ja) 歌詞作成装置及び歌詞作成方法並びに歌詞作成プログラムを記録した記録媒体
US7054817B2 (en) User interface for speech model generation and testing
JP3892410B2 (ja) 音楽データ選曲装置、音楽データ選曲方法、並びに、音楽データの選曲プログラムおよびそれを記録した情報記録媒体
JP2007206317A (ja) オーサリング方法、オーサリング装置およびプログラム
JP6746923B2 (ja) 情報処理システム、情報処理装置、情報処理方法および情報処理プログラム
US20070256435A1 (en) Air Conditioner Control Device and Air Conditioner Control Method
JP6815184B2 (ja) 情報処理装置、情報処理方法、および情報処理プログラム
JP2009288815A (ja) 機器制御装置、音声認識装置、エージェント装置、機器制御方法及びプログラム
JP4198040B2 (ja) データ利用装置及びデータ利用方法
JP2897701B2 (ja) 効果音検索装置
JP2006267881A (ja) 電子学習装置
US7822614B2 (en) Device control, speech recognition device, agent device, control method
JP6987447B2 (ja) 音声認識装置
JP6418179B2 (ja) 音読練習装置、表示制御方法、及びプログラム
JP4279274B2 (ja) 携帯端末装置および楽曲情報表示方法
JP2004294577A (ja) 文字情報音声変換方法
JP2009204872A (ja) 音声認識用辞書生成システム
JP4389516B2 (ja) 音声データ出力装置
JP2007219219A (ja) 語学学習用電子機器および学習用文章リスト作成方法
JP2006323438A (ja) 楽曲検索システム
JP2017122880A (ja) 音読評価装置、表示制御方法、及びプログラム
JPH07311591A (ja) 音声認識装置およびナビゲーションシステム
JP2020183985A (ja) 音声認識システム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060131

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080415

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080616

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080701

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080825

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080909

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080930

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111010

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121010

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121010

Year of fee payment: 4

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121010

Year of fee payment: 4

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131010

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees