JP5376072B1 - 車載情報システムおよび音声認識適応方法 - Google Patents

車載情報システムおよび音声認識適応方法 Download PDF

Info

Publication number
JP5376072B1
JP5376072B1 JP2013001504A JP2013001504A JP5376072B1 JP 5376072 B1 JP5376072 B1 JP 5376072B1 JP 2013001504 A JP2013001504 A JP 2013001504A JP 2013001504 A JP2013001504 A JP 2013001504A JP 5376072 B1 JP5376072 B1 JP 5376072B1
Authority
JP
Japan
Prior art keywords
information terminal
vehicle
speech recognition
vehicle information
terminal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013001504A
Other languages
English (en)
Other versions
JP2014134604A (ja
Inventor
英司 高田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2013001504A priority Critical patent/JP5376072B1/ja
Application granted granted Critical
Publication of JP5376072B1 publication Critical patent/JP5376072B1/ja
Priority to PCT/JP2013/007670 priority patent/WO2014108981A1/ja
Publication of JP2014134604A publication Critical patent/JP2014134604A/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/26Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 specially adapted for navigation in a road network
    • G01C21/34Route searching; Route guidance
    • G01C21/36Input/output arrangements for on-board computers
    • G01C21/3605Destination input or retrieval
    • G01C21/3608Destination input or retrieval using speech input, e.g. using speech recognition
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/26Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 specially adapted for navigation in a road network
    • G01C21/34Route searching; Route guidance
    • G01C21/36Input/output arrangements for on-board computers
    • G01C21/3688Systems comprising multiple parts or multiple output devices (not client-server), e.g. detachable faceplates, key fobs or multiple output screens
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems

Abstract

【課題】ユーザが利用する音声認識の認識性能を向上させることができる音声認識性能向上システムを提供する。
【解決手段】車載情報システム1は、音声認識エンジンをアクセス可能な携帯型情報端末3と通信可能な車載情報端末2を含み、車載情報端末2は、音声データを記憶する記憶部21と、所定の時期に音声データを携帯型情報端末3に送信する車載通信部22とを有し 、携帯型情報端末3は、車載情報端末2から受信した音声データを話者適応のために音声認識エンジンに送信する携帯端末通信部31を有する。
【選択図】図11

Description

本発明は、車載情報システムおよび音声認識適応方法に関する。
情報通信インフラストラクチャ(以下、インフラという。)の発展およびスマートフォンの普及により、スマートフォンへの入力データおよびスマートフォンからの出力データをサーバに送り、サーバがデータ処理を行いスマートフォンに処理結果を送るというクラウドサービスが普及している。そのようなクラウドサービスの一つである、音声認識によるWeb検索システムや会話型応答システムの利用者は増加している。
自動車内において目的地を発声すると、発声された目的地がカーナビゲーションシステムに設定される機能を有する音声認識システムを搭載した自動車は増加している。車載情報端末とスマートフォンとを連携したクラウドサービスについても普及することが見込まれており、音声認識によるクラウドサービスもその一つである。
音声認識は、人の話す音声言語をコンピュータによって解析し、話している内容を文字データとして取り出す処理である。音声認識を利用する際、話者の声の特徴に適応する話者適応技術や自動車内における騒音等の環境に適応する環境適応技術を用いて、音声認識の認識性能を高めることができる。これらの適応技術を利用して、自動車内における音声認識の認識性能を高めるにはいくつかの課題がある。
発話に対応する正しい認識結果テキストが不明確である場合でも適応度を高める処理を行うことができる、教師無し話者適応と呼ばれる技術がある(非特許文献1参照)。
教師無し話者適応機能を有する音声認識エンジンを用いる場合、音声認識エンジンに対する適応度を高めるために、ユーザには音声認識エンジンに対し数多く発声することが求められる。この場合、ユーザが乗車してからすぐに認識性能を高めることは困難である。
これに対して、発声内容の正しい認識結果テキストが明確である場合に適応度を高める処理を行うことができる、教師有り話者適応と呼ばれる技術がある(非特許文献2参照)。
教師有り話者適応機能を有する音声認識エンジンを用いる場合、教師無し話者適応機能を有する音声認識エンジンを用いた場合と比べると、適応度を高めるために必要なユーザの発声回数は比較的少なくなる。
ただし、教師有り話者適応機能を有する音声認識エンジンを利用する場合、ユーザには指定されたテキストを参照して発声することが求められる。または、発声後に音声認識結果テキストを参照して正しいか否かを判定し、正しければ話者適応を実行させるという判定処理をすることが求められる。
ユーザが指定されたテキストを参照して発声する場合、事前に指定されたテキストを複数回発声することが求められるため、ユーザはすぐに音声認識機能を利用することができない。
発声後に音声認識結果テキストを参照して正しいか否か判定する場合、判定するためのユーザ操作が求められるため、ユーザが運転中に操作すると自動車運転の安全性が低下することがある。よって、ユーザが教師有り話者適応機能を有する音声認識エンジンを運転中に利用することは困難である。
他にも、運転者の交代等によって発声するユーザが変更された場合、音声認識エンジンへの適応度を高めるためには、変更後のユーザに複数回発声することが求められる。よって、音声認識エンジンを利用するまでに発声の時間を要する。
さらに、ユーザが携帯型情報端末から複数の音声認識エンジンを利用することがある。例えば、ユーザがA社の音声によるWeb検索サービスとB社の音声対話アプリケーションを利用することが可能である携帯型情報端末を使用する場合等である。この場合、ユーザは、Web検索サービスを利用する時はA社の音声認識エンジンを利用し、B社の音声対話アプリケーションを利用する時はB社の音声認識エンジンを利用する。
他にも、複数の音声認識エンジンを同時に利用する場合の具体例として、ユーザが音声を複数の音声認識エンジンに入力して認識結果を複数取得し、正しい認識結果をユーザ操作により選択する、または正しい認識結果が自動的に選択されるという場合がある。
上記のように音声認識エンジンを複数利用する場合、それぞれの音声認識エンジンの適応度を高めることで認識性能が向上する。しかし、全ての音声認識エンジンの話者適応度を高めるためには、それぞれの音声認識エンジンを利用して複数回発声することが求められる。よって、全ての音声認識エンジンを利用するまでに多大な時間を要する。
このような状況において、音声認識エンジンを複数利用する場合に、利用できる全ての音声認識エンジンに対し事前に適応処理ができる音声認識システムが望まれる。
特許文献1には、車両に搭載される車載機と、車両の外部の遠隔地に設置されたセンターとを備えた音声認識システムが記載されている。
特開2012−088370号公報
鹿野清宏、 中村哲、 伊勢史郎著「音声・音情報のディジタル信号処理」、昭晃堂、1997年発行、p.132 中川聖一著「確率モデルによる音声認識」、電子情報通信学会、1988年発行、p.150
しかし、特許文献1に記載された音声認識システムでは、ユーザが発話するごとに適応処理をしているため、利用するまで時間がかかる。また、事前に適応処理が行われないため、音声認識が失敗する可能性もある。
そこで、本発明は、ユーザが利用する音声認識の認識性能を向上させることができる車載情報システムおよび音声認識適応方法を提供することを目的とする。
本発明による車載情報システムは、話者適応機能を有する複数の音声認識エンジンをアクセス可能な携帯型情報端末と通信可能な車載情報端末を含む車載情報システムであって、車載情報端末は、音声データを記憶する記憶部と、所定の時期に音声データを携帯型情報端末に送信する車載通信部と、適応度が所定レベルよりも低い話者適応機能を有する音声認識エンジンを選択する選択部とを有し、携帯型情報端末は、車載情報端末から受信した音声データを話者適応のために、選択部によって選択された音声認識エンジンに送信する携帯端末通信部を有することを特徴とする。
本発明による音声認識適応方法は、話者適応機能を有する複数の音声認識エンジンをアクセス可能な携帯型情報端末と通信可能な車載情報端末を含む車載情報システムで実行される音声認識適応方法であって、車載情報端末が、音声データを記憶する記憶部に記憶されている音声データを所定の時期に携帯型情報端末に送信し、車載情報端末が、適応度が所定レベルよりも低い話者適応機能を有する音声認識エンジンを選択し、携帯型情報端末が、車載情報端末から受信した音声データを話者適応のために、車載情報端末によって選択された音声認識エンジンに送信することを特徴とする。
本発明によれば、ユーザが利用する音声認識の認識性能を向上させることができる。
本発明による車載情報システムの実施形態の構成例を示すシステム構成図である。 車載情報端末200の構成例を示すブロック図である。 車載端末データ記憶部207に保存されている音声データの情報の一例を示す説明図である。 車載端末データ記憶部207に保存されている音声認識エンジンの情報の一例を示す説明図である。 車載端末データ記憶部207に保存されている音声認識エンジンの情報の一例を示す説明図である。 車載端末データ記憶部207に保存されている音声認識エンジンの情報の一例を示す説明図である。 車載端末データ記憶部207に保存されている音声認識エンジンの情報の一例を示す説明図である。 携帯型情報端末300の構成例を示すブロック図である。 車載情報システム100の音声データの保存処理の動作を示すフローチャートである。 車載情報システム100の音声認識エンジンへの適応処理の動作を示すフローチャートである。 車載情報システムの概要を示すブロック図である。
以下、本発明の実施形態を図面を参照して説明する。図1は、本発明による車載情報システムの実施形態の構成例を示すシステム構成図である。図1に示す車載情報システム100には、車載情報端末200と、携帯型情報端末300とが含まれる。
図1には、車載情報端末200が、携帯型情報端末300に、通信路400を介して接続されている例が示されている。また、図1には、車載情報システム100が自動車1000に搭載されている例が示されている。
なお、図1には1台の携帯型情報端末300が示されているが、携帯型情報端末300の台数は2台以上であってもよい。
車載情報端末200は、ユーザからの音声入力機能、携帯型情報端末等の機器との通信機能、音声データを保存する機能等を有する。
携帯型情報端末300は、音声認識を利用する機能、車載情報端末等の機器との通信機能等を有する。携帯型情報端末300は、例えば、音声認識を利用するアプリケーションを1つ以上備えていてもよい。
通信路400は、例えば、無線LAN(Local Area Network)、Bluetooth(登録商標)または有線ケーブルである。携帯型情報端末300は、車載情報端末200と通信可能な状態である。
次に、車載情報システム100の詳細な構成を図2と図8を参照して説明する。図2は、車載情報端末200の構成例を示すブロック図である。
図2に示す車載情報端末200は、車載端末入力部201と、オーディオ入力部202と、オーディオ出力部203と、車載端末制御部204と、車載端末通信部205と、車載端末表示部206と、車載端末データ記憶部207とを含む。
車載端末入力部201は、ユーザからの指示を入力する機能を有する。本実施形態において、車載端末入力部201には、音声認識エンジンの認識結果の候補が複数ある場合に候補の中からユーザが選択した正しい認識結果等が入力される。車載端末入力部201は、例えば、タッチパネルである。
オーディオ入力部202は、車載端末データ記憶部207に事前に保存される音声データの基となる音声を入力する機能を有する。オーディオ入力部202は、例えば、マイクロフォン(以下、マイクという。)である。
オーディオ出力部203は、音声案内やラジオ、音楽等、一般的なカーナビゲーションシステムから出力される音声を出力する機能を有する。本実施形態において、オーディオ出力部203からは、ユーザに通知するために音声認識結果が音声合成により出力されてもよい。オーディオ出力部203は、例えば、スピーカである。
車載端末制御部204は、ユーザの音声データおよび音声認識エンジンの認識結果を入力または出力する機能を有する。
また、車載端末制御部204は、音声認識エンジンから取得した認識結果が正しいか否か判定する機能を有する。認識結果が正しいか否か判定する方法は、例えば、音声認識エンジンから認識スコアと呼ばれる認識結果に対する正確さを示すパラメータを認識結果とともに取得できる場合には、認識スコアがあらかじめ定められている閾値以上であれば正しいとみなす方法である。
他にも、認識結果を車載情報端末200の車載端末表示部206から参照したユーザがその後の操作で認識結果を利用したことが確認されたら正しい認識結果であったとみなし、すぐに音声入力をやり直す等、ユーザが認識結果を利用したことが確認されない場合には正しくないとみなす方法でもよい。
また、一つまたは複数の音声認識エンジンを利用し認識結果の候補が複数ある場合、候補の中からユーザが選択した認識結果を正しいとみなす方法でもよい。
また、音声認識エンジンを複数利用する場合、適応度が高い音声認識エンジン、または正しく認識した回数が多い音声認識エンジンの優先度を高くし、優先度が高い音声認識エンジンの認識結果をより正しいとみなす方法でもよい。
また、車載端末制御部204は、オーディオ入力部202より入力された音声の音声データを加工する機能を有する。車載端末制御部204による音声データの加工処理には、例えば、雑音除去処理、データ圧縮処理がある。
車載端末通信部205は、通信路400を介して、携帯型情報端末300等の機器と通信する機能を有する。車載端末通信部205は、有線または無線により通信する。
車載端末表示部206は、音声認識の認識結果等を表示する機能を有する。車載端末表示部206は、例えば、ディスプレイである。
車載端末データ記憶部207は、音声データを保存する機能を有する。保存される音声データは、オーディオ入力部202より入力された音声の音声データでもよい。
また、オーディオ入力部202より入力された音声の音声データを車載端末制御部204が加工し、加工された音声データが携帯型情報端末300に送信される場合、保存される音声データは、加工された後の音声データでもよい。
また、保存される音声データのチャネル数は限定されない。例えば、自動車1000内にマイクが複数存在する場合には、その全てのチャネルの音声データが保存されてもよい。
複数チャネルの音声データを保存した場合、携帯型情報端末300に音声データを送信する時には、保存されている音声データの中から必要なチャネルの音声データを一つまたは複数個選別して送信してもよい。
また、保存されている複数チャネルの音声データを用いて、例えば、雑音除去等の加工処理を車載端末制御部204で行い、加工された後の音声データを携帯型情報端末300に送信してもよい。
車載端末データ記憶部207に保存されている音声データの情報の一例を図3に示す。図3は、車載端末データ記憶部207に保存されている音声データの情報の一例を示す説明図である。車載端末データ記憶部207に保存されている音声データの情報は、ユーザ識別情報210と、保存音声データ211と、発話内容テキスト212と、保存日時213から構成される。
ユーザ識別情報210は、話者を識別する情報である。ユーザ識別情報210は、ユーザが車載情報端末200を操作すると登録されるユーザIDやユーザアカウント等の所有者固有の情報である。
また、ユーザ識別情報210は、接続した携帯情報端末のSIM(Subscriber Identity Module)カードの情報、または自動車の鍵の情報と、ユーザIDやユーザアカウント等の所有者固有の情報が組み合わされた情報でもよい。
また、自動車1000が生体認証機能等を有していて登録した人しかドアを開けることができない場合、ユーザ識別情報210は、機能を使用するためにあらかじめ登録されたユーザ情報でもよい。
他にも、車載情報端末200の車載端末入力部201を介してユーザが入力した内容をユーザ識別情報210としてもよい。具体的には、例えば、事前に登録されたユーザ情報や利用履歴等を選択できる画面を車載端末入力部201に表示し、ユーザがタッチパネルにより入力した情報をユーザ識別情報210としてもよい。
ユーザ識別情報210は、上記の情報に限らず、発声するユーザごとに異なる情報であればどのような情報でもよい。
保存音声データ211は、例えば、オーディオ入力部202より入力された音声の音声データである。保存音声データ211には、保存された音声データのファイル名等が表示される。
発話内容テキスト212は、音声データに含まれる発話内容のテキストデータである。発話内容テキスト212は、音声認識エンジンによる認識結果から得られるデータである。
保存日時213は、音声データが保存された日時を示す情報である。
また、車載端末データ記憶部207は、音声認識エンジンの情報を保存する機能を有する。音声認識エンジンの情報は、車載情報端末200と携帯型情報端末300とが通信可能な状態となった際に、携帯型情報端末300から車載情報端末200へ送信され、車載情報端末200の車載端末データ記憶部207に登録される。
図4は、車載端末データ記憶部207に保存されている音声認識エンジンの情報の一例を示す説明図である。車載端末データ記憶部207に保存されている音声認識エンジンの情報は、音声認識エンジン識別情報220と、話者適応機能情報221と、適応状態222と、利用可否(利用可否状態を示すデータ)223から構成される。
なお、図5、図6および図7は、車載端末データ記憶部207に保存されている音声認識エンジンの情報の他の一例を示す説明図である。
音声認識エンジン識別情報220は、音声認識エンジンを識別する情報である。
話者適応機能情報221は、音声認識エンジンが有する話者適応機能の情報である。話者適応機能情報221には、例えば、教師有り話者適応機能、教師無し話者適応機能等がある。
話者適応機能情報221には、例えば、車載情報端末200と携帯型情報端末300とが通信可能に接続された際に、携帯型情報端末300から利用できる音声認識エンジンの有する話者適応機能の情報が、携帯型情報端末300から送信されることによって登録されてもよい。
また、話者適応機能情報221には、携帯型情報端末300から利用できる音声認識エンジンにおいて、一般的に広く利用されている機能が事前にユーザによって登録されてもよい。他にも、話者適応機能情報221には、車載情報端末200をユーザが操作する場合に、話者適応機能の有無について選択された結果が登録されてもよい。
適応状態222は、これから利用する音声認識エンジンにユーザの音声データが適応されているか否かを示す情報である。音声認識エンジンに既にユーザの音声データが適応されている場合、適応状態222は「適応済」となる。音声認識エンジンに未だユーザの音声データが適応されていない場合、適応状態222は「未適応」となる。
音声認識エンジンにユーザの音声データが適応されているか否かの具体的な判定方法は、例えば、同じユーザの音声データの入力回数と適応度が比例するとして、音声データが所定回数入力されると適応が完了すると判断する方法でもよい。また、過去数回の入力に対する認識結果の正解率があらかじめ定められている率よりも高い音声認識エンジンを適応が完了していると判断する方法でもよい。
利用可否223は、音声認識エンジンが現在利用可能な状態にあるか否かを示す情報である。音声認識エンジンが通常通り利用できる場合、利用可否223は「利用可」となる。
また、例えば、周囲の電波状況によっては携帯型情報端末300がサーバと接続できないことがあり、サーバの音声認識エンジンにアクセスできなくなることがある。他にも、音声認識エンジンの故障やサーバのメンテナンス等により音声認識エンジンが利用できない場合がある。このように何らかの事由により音声認識エンジンが現在利用できない場合、利用可否223は「利用不可」となる。
車載端末データ記憶部207の記憶容量は有限であるため、新たに発生する情報を保存するために、図3に示す音声データの情報や図4に示す音声認識エンジンの情報は逐次削除される。
車載端末データ記憶部207に保存されている情報を削除する方法は、例えば、音声の録音日時を参照して所定時間経過している情報を削除する方法でもよい。また、保存日時が古い情報を優先的に削除する方法でもよい。
本実施形態において、データの削除方法は上記の方法に限らず、不要なデータや録音日時の古いデータがユーザ操作により削除される方法や、条件に合致すると自動的に削除される方法であればよい。
なお、本実施形態において、車載端末制御部204は、例えば、プログラムに従って動作するCPU(Central Processing Unit)によって実現される。
また、車載端末通信部205は、プログラムに従って動作するCPUと、ネットワークカード等の通信制御装置とによって実現される。
また、車載端末データ記憶部207は、例えば、データベースシステムといった記憶装置とその記憶装置に対してアクセス制御する制御部とによって実現される。
図8は、携帯型情報端末300の構成例を示すブロック図である。図8に示す携帯型情報端末300は、携帯型端末通信部301と、携帯型端末入力部302と、情報端末通信部303と、携帯型端末制御部304と、携帯型端末表示部305と、携帯型端末データ記憶部306とを含む。
携帯型端末通信部301は、音声認識エンジンを備えたサーバ等と無線通信する機能を有してもよい。使用される通信方式として、例えば、W−CDMA(Wideband Code Division Multiple Access)等がある。
また、携帯型端末通信部301は、音声認識エンジンを搭載したサーバに音声データを送信し、サーバから認識結果を受信してもよい。
携帯型端末入力部302は、ユーザからの指示を入力する機能を有する。携帯型端末入力部302は、例えば、ボタンやタッチパネルである。
情報端末通信部303は、通信路400を介して、車載情報端末200等の機器と通信する機能を有する。
携帯型端末制御部304は、入力した音声データを音声認識エンジンに出力する機能と、音声認識エンジンから認識結果を入力する機能を有する。携帯型端末制御部304は、音声認識エンジンを搭載してもよい。
携帯型端末表示部305は、ユーザに指示を促す画面等を表示する機能を有する。携帯型端末表示部305は、例えば、ディスプレイである。
携帯型端末データ記憶部306は、例えば、携帯型情報端末300から利用できる音声認識エンジンの情報等を記憶する機能を有してもよい。
本実施形態では、携帯型情報端末300から利用できる音声認識エンジンが搭載される場所は限定されない。また、携帯型情報端末300は、音声認識エンジンを複数利用してもよい。
なお、本実施形態において、携帯型端末制御部304は、例えば、プログラムに従って動作するCPUによって実現される。
また、携帯型端末通信部301および情報端末通信部303は、プログラムに従って動作するCPUと、無線インタフェースによって実現される。
また、携帯型端末データ記憶部306は、フラッシュメモリ等の記憶媒体とその記憶媒体に対してアクセス制御する制御部とによって実現される。
以下、本発明による保存処理の動作を、図9を参照して説明する。図9は、車載情報システム100の音声データの保存処理の動作を示すフローチャートである。
本実施形態では、ユーザは、音声データを事前に保存することが求められる。ユーザは、例えばあらかじめ車載情報端末200の録音機能を利用して保存する。
ここでは、ユーザが音声認識を利用する際に、車載情報端末200の車載端末制御部204が音声データを保存する方法を例にして、図9のフローチャートを参照して説明する。
音声認識を利用する際、ユーザは、車載情報端末200のオーディオ入力部202に音声を入力する(ステップS501)。なお、音声を入力する際、ユーザが車載情報端末200を操作した時に登録されるユーザIDやユーザアカウントをユーザ識別情報210とする。
入力された音声の音声データは、車載端末制御部204を介して、車載端末通信部205へ出力される。車載端末通信部205は、入力された音声データを携帯型情報端末300に送信する(ステップS502)。
情報端末通信部303は、車載情報端末200から音声データを受信する。携帯型端末制御部304は、情報端末通信部303から音声データを入力し、入力した音声データを音声認識エンジンに出力する(ステップS503)。
音声認識エンジンは、入力した音声データの認識結果を出力する。携帯型端末制御部304は、音声認識エンジンの認識結果を取得し(ステップS504)、情報端末通信部303に出力する。
情報端末通信部303は、入力した認識結果を車載情報端末200に送信する(ステップS505)。車載情報端末200の車載端末通信部205は、認識結果を受信する(ステップS506)。その後、車載端末制御部204は、受信した認識結果が正しいか否か判定する(ステップS507)。
受信した認識結果が正しくない場合(ステップS507のNo)、車載端末制御部204は、保存処理を終了する。
受信した認識結果が正しい場合(ステップS507のYes)、車載端末制御部204は、その認識結果を発話内容テキスト212として、ユーザ識別情報210と音声データと共に車載端末データ記憶部207に保存する(ステップS508)。保存した後、車載端末制御部204は、保存処理を終了する。
なお、認識結果が所定の基準を満たす場合に認識結果が正しいと判定されるが、判断基準は例えば上述した認識スコアである。ただし、車載端末制御部204は、他の判断基準を用いてもよい。
次に、本発明による適応処理の動作を、図10を参照して説明する。図10は、車載情報システム100の音声認識エンジンへの適応処理の動作を示すフローチャートである。
具体例として、図4に示す音声認識エンジンに関する情報が車載端末データ記憶部207に登録される時の車載情報システム100の適応処理の動作を説明する。
ユーザは乗車後に、車載情報端末200と携帯型情報端末300を有線または無線により通信可能に接続する。車載情報端末200と携帯型情報端末300が通信可能な状態になると、車載情報端末200の車載端末制御部204は、自動的に、またはボタン等による車載端末入力部201を介したユーザ操作により、図10のフローチャートに示す適応処理をする。
図10のフローチャートに示す適応処理は、車載情報端末200と携帯型情報端末300が通信可能な状態になると、自動的に実行されてもよい。また、適応処理は、通信可能な状態な時にユーザ操作により全て実行されてもよい。また、適応処理は、通信可能な状態になると途中まで自動的に実行され、ユーザ操作により後続の処理が実行されてもよい。
適応処理が開始されると、携帯型情報端末300の情報端末通信部303が、携帯型情報端末300から利用できる音声認識エンジンについての情報を車載情報端末200に送信する(ステップS601)。
車載情報端末200の車載端末通信部205は、利用できる音声認識エンジンについての情報を受信する。車載端末制御部204は、受信した情報を車載端末データ記憶部207に登録する。音声認識エンジンの情報が登録されると、車載端末制御部204は、ユーザが車載情報端末200を操作したときに登録されたユーザID等に基づき、ユーザを識別する(ステップS602)。
車載端末制御部204は、識別したユーザの音声データが車載情報端末200の車載端末データ記憶部207に保存されているか否か判定する(ステップS603)。保存されていない場合(ステップS603のNo)、車載端末制御部204は、適応処理を終了する。
保存されている場合(ステップS603のYes)、車載端末制御部204は、携帯型情報端末300で利用できる音声認識エンジンが存在するか否か判定する(ステップS604)。
利用できる音声認識エンジンが存在しない場合(ステップS604のNo)、車載端末制御部204は、適応処理を終了する。利用できる音声認識エンジンが存在する場合(ステップS604のYes)、車載端末制御部204は、適応が完了していなく、かつ利用できる音声認識エンジンを1つ選択する(ステップS605)。
なお、適応が完了していないということは、具体的には、適応度が所定レベルよりも低いことを意味する。「適応度が所定レベルよりも低い音声認識エンジン」は、一例として、過去数回の入力に対する認識結果の正解率があらかじめ定められている所定値以下の音声認識エンジンである。
図4に示す利用可否223を参照すると、5つの音声認識エンジンのうち、音声認識エンジンA、音声認識エンジンB、音声認識エンジンC、および音声認識エンジンEは「利用可」であるため(ステップS604のYes)、車載端末制御部204は、ステップS605へ処理を進める。
ステップS605において、車載端末制御部204は、利用でき、かつ適応が完了していない音声認識エンジンとして、音声認識エンジンAを選択する(ステップS605)。
車載端末制御部204は、選択した音声認識エンジンに教師有り話者適応機能があるか否か判定する(ステップS606)。車載端末制御部204は、車載端末データ記憶部207に登録されている情報を基に、教師有り話者適応機能の有無を判定する。
話者適応機能の有無が不明確である場合、車載端末制御部204は、音声認識エンジンに話者適応機能が有る、または話者適応機能が無いとみなして後続の処理を行ってもよい。また、車載端末制御部204が音声認識エンジンに話者適応機能が有るか無いかのどちらとみなすかを、ユーザが任意に設定してもよい。
選択した音声認識エンジンに教師有り話者適応機能がある場合(ステップS606のYes)、車載端末制御部204は、話者適応のために、車載端末データ記憶部207に保存されている音声データと発話内容テキストを、所定の回数だけ携帯型情報端末300に送信する(ステップS607)。選択した音声認識エンジンに教師有り話者適応機能がない場合(ステップS606のNo)、車載端末制御部204は、ステップS610へ処理を進める。
音声認識エンジンAは教師有り話者適応機能を有するため(ステップS606のYes)、車載端末制御部204は、音声データと発話内容テキストを、所定の回数だけ携帯型情報端末300に送信する(ステップS607)。
送信回数が決められている理由は、携帯型情報端末300に送信する音声データが多いと、話者適応処理に時間がかかることがあるためである。
携帯型情報端末300の情報端末通信部303は、音声データと発話内容テキストを受信する。情報端末通信部303は、受信した音声データと発話内容テキストを携帯型端末制御部304へ出力する。携帯型端末制御部304は、入力した音声データと発話内容テキストを音声認識エンジンに出力する(ステップS608)。
本実施形態では、音声認識エンジンに所定の回数分の音声データ等が入力されると、その音声認識エンジンの適応は完了したとする。音声認識エンジンに所定の回数分の音声データと発話内容テキストが入力されると、車載端末制御部204は、音声認識エンジンの適応状態222を「適応済」に変更する(ステップS609)。
所定の回数分の音声データと発話内容テキストが入力された後、音声認識エンジンAの適応状態222は、図5に示すように「適応済」となる。
その後、車載端末制御部204は、利用できる全ての音声認識エンジンについて適応が完了しているか否か確認する(ステップS615)。利用できる全ての音声認識エンジンについて適応が完了している場合(ステップS615のYes)、車載端末制御部204は、適応処理を終了する。利用できる全ての音声認識エンジンについて適応が完了していない場合(ステップS615のNo)、車載端末制御部204は、ステップS605へ処理を進める。
図5に示す適応状態222を参照すると、利用できる音声認識エンジンのうち、音声認識エンジンBおよび音声認識エンジンEは「未適応」であるため(ステップS615のNo)、車載端末制御部204は、ステップS605へ処理を進める。
ステップS605において、車載端末制御部204は、利用でき、かつ適応が完了していない音声認識エンジンとして、音声認識エンジンBを選択する。
車載端末制御部204は、選択した音声認識エンジンに教師有り話者適応機能があるか否か判定する(ステップS606)。車載端末制御部204は、車載端末データ記憶部207に登録されている情報を基に、教師有り話者適応機能の有無を判定する。
音声認識エンジンBは教師有り話者適応機能を有していないため(ステップS606のNo)、車載端末制御部204は、ステップS610へ処理を進める。
車載端末制御部204は、選択した音声認識エンジンに教師無し話者適応機能があるか否か判定する(ステップS610)。車載端末制御部204は、車載端末データ記憶部207に登録されている情報を基に、教師無し話者適応機能の有無を判定する。
選択した音声認識エンジンに教師無し話者適応機能がある場合(ステップS610のYes)、車載端末制御部204は、話者適応のために、車載端末データ記憶部207に保存されている音声データを、所定の回数だけ携帯型情報端末300に送信する(ステップS611)。選択した音声認識エンジンに教師無し話者適応機能がない場合(ステップS610のNo)、車載端末制御部204は、ステップS614へ処理を進める。
音声認識エンジンBは教師無し話者適応機能を有するため(ステップS610のYes)、車載端末制御部204は、音声データを所定の回数だけ携帯型情報端末300に送信する(ステップS611)。
携帯型情報端末300の情報端末通信部303は、音声データを受信する。情報端末通信部303は、受信した音声データを携帯型端末制御部304へ出力する。携帯型端末制御部304は、入力した音声データを音声認識エンジンに出力する(ステップS612)。
音声認識エンジンに所定の回数分の音声データが入力されたら、車載端末制御部204は、音声認識エンジンの適応状態222を「適応済」に変更する(ステップS613)。所定の回数分の音声データが入力された後、音声認識エンジンBの適応状態222は、図6に示すように「適応済」となる。
その後、車載端末制御部204は、利用できる全ての音声認識エンジンについて適応が完了しているか否か確認する(ステップS615)。図6に示す適応状態222を参照すると、利用できる音声認識エンジンのうち、音声認識エンジンEは「未適応」であるため(ステップS615のNo)、車載端末制御部204は、ステップS605へ処理を進める。
ステップS605において、車載端末制御部204は、利用でき、かつ適応が完了していない音声認識エンジンとして、音声認識エンジンEを選択する。
車載端末制御部204は、選択した音声認識エンジンに教師有り話者適応機能があるか否か判定する(ステップS606)。車載端末制御部204は、車載端末データ記憶部207に登録されている情報を基に、教師有り話者適応機能の有無を判定する。
音声認識エンジンEは教師有り話者適応機能を有していないため(ステップS606のNo)、車載端末制御部204は、ステップS610へ処理を進め、選択した音声認識エンジンに教師無し話者適応機能があるか否か判定する(ステップS610)。車載端末制御部204は、車載端末データ記憶部207に登録されている情報を基に、教師無し話者適応機能の有無を判定する。
音声認識エンジンEは教師無し話者適応機能を有していないため(ステップS610のNo)、車載端末制御部204は、ステップS614へ処理を進める。
車載端末制御部204は、音声認識エンジンEの利用可否223を「利用不可」に変更する(ステップS614)。音声認識エンジンEの利用可否223は、図7に示すように「利用不可」となる。
その後、車載端末制御部204は、利用できる全ての音声認識エンジンについて適応が完了しているか否か確認する(ステップS615)。図7に示す適応状態222を参照すると、利用できる音声認識エンジンは全て「適応済」であるため(ステップS615のYes)、車載端末制御部204は、適応処理を終了する。
以上のように、音声認識エンジンを利用する機能を有する携帯型情報端末と、携帯型情報端末との通信機能を有しユーザが自動車内で発声した音声データを保存する車載情報端末とを使用し、保存した音声データおよびその発話内容テキストを用いることで、複数の音声認識エンジンに対してユーザが新たに発声することなく話者適応度および環境適応度を高めることができる。
本実施形態の車載情報システムを使用する場合、自動車内で利用する音声認識エンジンの話者適応度を高めるために必要なユーザの手間を削減することができる。その理由は、車載情報端末に保存されたユーザの音声データを携帯型情報端末に送信して、携帯型情報端末より音声認識エンジンに音声データを入力する場合、ユーザが新たに発声することなく話者適応度を高めることができるからである。また、音声認識を利用する時に音声データが保存されるため、ユーザは、話者適応だけのために発声する必要がない。
本実施形態の車載情報システムを使用する場合、自動車内で利用する音声認識エンジンの環境適応度が高まり、適応環境と同じ環境で使用するときの性能を向上させることができる。その理由は、自動車内で音声認識を利用する場合の音声データが保存されるため、音声データが自動車内の騒音等の環境も含んでおり環境適応度が向上するためである。この結果、自動車内で使用する時の音声認識の性能が向上する。
次に、本発明の概要を説明する。図11は、本発明による車載情報システムの概要を示すブロック図である。本発明による車載情報システム1において、車載情報端末2は、音声データを記憶する記憶部21と、所定の時期に音声データを携帯型情報端末3に送信する車載通信部22とを有し、携帯型情報端末3は、車載情報端末2から受信した音声データを話者適応のために音声認識エンジンに送信する携帯端末通信部31を有する。
携帯型情報端末3は、複数の教師無し話者適応機能を有する音声認識エンジンをアクセス可能であり、車載情報端末2は、適応度が所定レベルよりも低い教師無し話者適応機能を有する音声認識エンジンを選択する選択部(例えば、車載端末制御部204で実現される。)を有し、携帯端末通信部31は、選択部によって選択された音声認識エンジンに音声データを送信するように構成されていてもよい。
そのように構成されている場合には、車載情報端末2は、教師無し話者適応機能を有する音声認識エンジンを事前に(ユーザが実際に音声認識エンジンを活用する前に)ユーザ(話者)に適応させることができる。
携帯型情報端末3は、複数の教師有り話者適応機能を有する音声認識エンジンをアクセス可能であり、車載情報端末2は、適応度が所定レベルよりも低い教師有り話者適応機能を有する音声認識エンジンを選択する選択部(例えば、車載端末制御部204で実現される。)を有し、携帯端末通信部31は、選択部によって選択された音声認識エンジンに音声データおよび発話内容テキストを送信するように構成されていてもよい。
そのように構成されている場合には、車載情報端末2は、教師有り話者適応機能を有する音声認識エンジンを事前に話者に適応させることができる。
記憶部21は、複数の話者の各々の音声データを記憶し、車載通信部22は、各々の話者の音声データを携帯型情報端末3に送信するように構成されていてもよい。
そのように構成されている場合には、複数のユーザの各々について、音声認識エンジンを事前に適応させることができる。
携帯端末通信部31は、音声認識エンジンの認識結果を車載情報端末2に送信し、車載情報端末2は、認識結果が所定の基準を満たす場合に認識結果を正しいとして、その認識結果を発話内容テキストとして記憶部21に保存する記憶制御部(例えば、車載端末制御部204で実現される。)を有していてもよい。
そのように構成されている場合には、事前に、教師有り話者適応機能を有する音声認識エンジンを適応させるための用意を行うことができる。
1、100 車載情報システム
2 車載情報端末
3 携帯型情報端末
21 記憶部
22 車載通信部
31 携帯端末通信部
200 車載情報端末
201 車載端末入力部
202 オーディオ入力部
203 オーディオ出力部
204 車載端末制御部
205 車載端末通信部
206 車載端末表示部
207 車載端末データ記憶部
210 ユーザ識別情報
211 保存音声データ
212 発話内容テキスト
213 保存日時
220 音声認識エンジン識別情報
221 話者適応機能情報
222 適応状態
223 利用可否
300 携帯型情報端末
301 携帯型端末通信部
302 携帯型端末入力部
303 情報端末通信部
304 携帯型端末制御部
305 携帯型端末表示部
306 携帯型端末データ記憶部
400 通信路

Claims (8)

  1. 話者適応機能を有する複数の音声認識エンジンをアクセス可能な携帯型情報端末と通信可能な車載情報端末を含む車載情報システムであって、
    前記車載情報端末は、
    音声データを記憶する記憶部と、
    所定の時期に前記音声データを前記携帯型情報端末に送信する車載通信部と
    適応度が所定レベルよりも低い話者適応機能を有する音声認識エンジンを選択する選択部とを有し、
    前記携帯型情報端末は、
    前記車載情報端末から受信した音声データを話者適応のために、前記選択部によって選択された音声認識エンジンに送信する携帯端末通信部を有する
    ことを特徴とする車載情報システム。
  2. 車載通信部は、携帯型情報端末と車載情報端末とが通信可能になったときに、音声データを前記携帯型情報端末に送信する
    請求項1記載の車載情報システム。
  3. 携帯端末通信部は、話者適応機能として教師無し話者適応機能を有する複数の音声認識エンジンに音声データを送信する
    請求項1または請求項2記載の車載情報システム。
  4. 記憶部は、音声データに対応する発話内容テキストを記憶し、
    車載通信部は、音声データとともにそれに対応する発話内容テキストを送信し、
    携帯端末通信部は、話者適応機能として教師有り話者適応機能を有する複数の音声認識エンジンに音声データおよび発話内容テキストを送信する
    請求項1または請求項2記載の車載情報システム。
  5. 記憶部は、複数の話者の各々の音声データを記憶し、
    車載通信部は、各々の話者の音声データを前記携帯型情報端末に送信する
    請求項1から請求項のうちのいずれか1項に記載の車載情報システム。
  6. 携帯端末通信部は、音声認識エンジンの認識結果を車載情報端末に送信し、
    前記車載情報端末は、前記認識結果が所定の基準を満たす場合に前記認識結果を正しいとして、その認識結果を発話内容テキストとして記憶部に保存する記憶制御部を有する
    請求項1から請求項のうちのいずれか1項に記載の車載情報システム。
  7. 話者適応機能を有する複数の音声認識エンジンをアクセス可能な携帯型情報端末と通信可能な車載情報端末を含む車載情報システムで実行される音声認識適応方法であって、
    前記車載情報端末が、音声データを記憶する記憶部に記憶されている音声データを所定の時期に前記携帯型情報端末に送信し、
    前記車載情報端末が、適応度が所定レベルよりも低い話者適応機能を有する音声認識エンジンを選択し、
    前記携帯型情報端末が、前記車載情報端末から受信した音声データを話者適応のために、前記車載情報端末によって選択された音声認識エンジンに送信する
    ことを特徴とする音声認識適応方法。
  8. 車載情報端末が、携帯型情報端末と車載情報端末とが通信可能になったときに、音声データを前記携帯型情報端末に送信する
    請求項記載の音声認識適応方法。
JP2013001504A 2013-01-09 2013-01-09 車載情報システムおよび音声認識適応方法 Active JP5376072B1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2013001504A JP5376072B1 (ja) 2013-01-09 2013-01-09 車載情報システムおよび音声認識適応方法
PCT/JP2013/007670 WO2014108981A1 (ja) 2013-01-09 2013-12-27 車載情報システムおよび音声認識適応方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013001504A JP5376072B1 (ja) 2013-01-09 2013-01-09 車載情報システムおよび音声認識適応方法

Publications (2)

Publication Number Publication Date
JP5376072B1 true JP5376072B1 (ja) 2013-12-25
JP2014134604A JP2014134604A (ja) 2014-07-24

Family

ID=49954984

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013001504A Active JP5376072B1 (ja) 2013-01-09 2013-01-09 車載情報システムおよび音声認識適応方法

Country Status (2)

Country Link
JP (1) JP5376072B1 (ja)
WO (1) WO2014108981A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101910383B1 (ko) * 2015-08-05 2018-10-22 엘지전자 주식회사 차량 운전 보조 장치 및 이를 구비한 차량
US10978046B2 (en) * 2018-10-15 2021-04-13 Midea Group Co., Ltd. System and method for customizing portable natural language processing interface for appliances
US10650819B2 (en) * 2018-10-15 2020-05-12 Midea Group Co., Ltd. System and method for providing portable natural language processing interface across multiple appliances

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004029299A (ja) * 2002-06-25 2004-01-29 Auto Network Gijutsu Kenkyusho:Kk 音声認識システム
JP2005173215A (ja) * 2003-12-11 2005-06-30 Oki Electric Ind Co Ltd 音声認識システム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4440502B2 (ja) * 2001-08-31 2010-03-24 富士通株式会社 話者認証システム及び方法
JP4037709B2 (ja) * 2002-07-25 2008-01-23 アルパイン株式会社 音声認識方法及び音声認識システム
JP2005091504A (ja) * 2003-09-12 2005-04-07 Chubu Electric Power Co Inc 音声認識装置
JP2005181459A (ja) * 2003-12-16 2005-07-07 Canon Inc 音声認識装置および方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004029299A (ja) * 2002-06-25 2004-01-29 Auto Network Gijutsu Kenkyusho:Kk 音声認識システム
JP2005173215A (ja) * 2003-12-11 2005-06-30 Oki Electric Ind Co Ltd 音声認識システム

Also Published As

Publication number Publication date
JP2014134604A (ja) 2014-07-24
WO2014108981A1 (ja) 2014-07-17

Similar Documents

Publication Publication Date Title
JP6571118B2 (ja) 音声認識処理のための方法、車載システム及び不揮発性記憶媒体
US10380992B2 (en) Natural language generation based on user speech style
US10679620B2 (en) Speech recognition arbitration logic
EP2538404B1 (en) Voice data transferring device, terminal device, voice data transferring method, and voice recognition system
US10490207B1 (en) Automated speech recognition using a dynamically adjustable listening timeout
CN111095400A (zh) 选择系统和方法
US10255913B2 (en) Automatic speech recognition for disfluent speech
JP2014179067A (ja) 音声インターフェースシステム及び方法
US20180074661A1 (en) Preferred emoji identification and generation
US20180075842A1 (en) Remote speech recognition at a vehicle
US20160322052A1 (en) Method and System for Generating a Control Command
JP5376072B1 (ja) 車載情報システムおよび音声認識適応方法
US20170018273A1 (en) Real-time adaptation of in-vehicle speech recognition systems
US20200286479A1 (en) Agent device, method for controlling agent device, and storage medium
US20200321006A1 (en) Agent apparatus, agent apparatus control method, and storage medium
US20230318727A1 (en) Vehicle and method of controlling the same
US11355114B2 (en) Agent apparatus, agent apparatus control method, and storage medium
US20200219508A1 (en) Method for commanding a plurality of virtual personal assistants and associated devices
KR102441066B1 (ko) 차량의 음성생성 시스템 및 방법
KR20230135396A (ko) 대화 관리 방법, 사용자 단말 및 컴퓨터로 판독 가능한 기록 매체
KR20230122427A (ko) 차량 및 그 제어 방법
KR20240053428A (ko) 대화 관리 방법, 대화 관리 시스템 및 컴퓨터로 판독 가능한 기록 매체

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130909

R150 Certificate of patent or registration of utility model

Ref document number: 5376072

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150