JP2020160281A - 端末装置、端末装置の制御方法、およびプログラム - Google Patents

端末装置、端末装置の制御方法、およびプログラム Download PDF

Info

Publication number
JP2020160281A
JP2020160281A JP2019059873A JP2019059873A JP2020160281A JP 2020160281 A JP2020160281 A JP 2020160281A JP 2019059873 A JP2019059873 A JP 2019059873A JP 2019059873 A JP2019059873 A JP 2019059873A JP 2020160281 A JP2020160281 A JP 2020160281A
Authority
JP
Japan
Prior art keywords
terminal device
unit
preprocessing
server
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019059873A
Other languages
English (en)
Other versions
JP7278830B2 (ja
Inventor
慎一 菊池
Shinichi Kikuchi
慎一 菊池
昌宏 暮橋
Masahiro Kurehashi
昌宏 暮橋
正樹 栗原
Masaki Kurihara
正樹 栗原
本田 裕
Yutaka Honda
裕 本田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honda Motor Co Ltd
Original Assignee
Honda Motor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honda Motor Co Ltd filed Critical Honda Motor Co Ltd
Priority to JP2019059873A priority Critical patent/JP7278830B2/ja
Priority to CN202010215503.6A priority patent/CN111755007B/zh
Publication of JP2020160281A publication Critical patent/JP2020160281A/ja
Application granted granted Critical
Publication of JP7278830B2 publication Critical patent/JP7278830B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/162Interface to dedicated audio devices, e.g. audio drivers, interface to CODECs
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Telephonic Communication Services (AREA)

Abstract

【課題】音声認識機能を有し、互いに異なる複数のサーバ装置を有効に活用することができる端末装置、端末装置の制御方法、およびプログラムを提供すること。【解決手段】車両に搭載される端末装置であって、マイクによって収音された車室内の音声に対して、音声認識機能を有する複数のサーバ装置のうち二以上のサーバ装置のそれぞれに応じた前処理を行う二以上の前処理部と、前記二以上の前処理部のそれぞれにより前処理が行われた音声を、通信部を用いて、対応するサーバ装置に送信する通信制御部と、を備える端末装置。【選択図】図2

Description

本発明は、端末装置、端末装置の制御方法、およびプログラムに関する。
従来、車両において乗員により発せられた音声を認識する技術について研究が進められている。特許文献1には、ユーザーの発話に基づく音声信号が入力される音声信号入力部と、ユーザーの手動操作に基づく操作信号が入力される操作信号入力部と、音声信号に含まれるノイズに関する指標であるノイズ指標を算出するSN比算出部と、音声信号または操作信号のいずれかを入力信号として受け付け、入力信号に基づく制御を実行する制御部と、を備え、制御部は、SN比算出部が算出するノイズ指標に基づいて、次の操作入力において音声信号、または操作信号のいずれを入力信号として受け付けるかを決定する車載装置の発明が開示されている。
特開2017−102822号公報
音声認識の分野では、端末装置からネットワークを介してサーバ装置に音声が送信され、サーバ装置において音声認識が行われ、その結果が端末装置に返信される仕組みが主流である。しかしながら、従来の技術では、複数のサーバ装置に対して選択的に、或いは並行して音声認識を依頼するための仕組みについて十分に検討されていなかった。このため、従来の技術では、音声認識機能を有する複数のサーバ装置を有効に活用することができない場合があった。
本発明は、このような事情を考慮してなされたものであり、音声認識機能を有し、互いに異なる複数のサーバ装置を有効に活用することができる端末装置、端末装置の制御方法、およびプログラムを提供することを目的の一つとする。
この発明に係る端末装置、端末装置の制御方法、およびプログラムは、以下の構成を採用した。
(1):本発明の一態様に係る端末装置は、車両に搭載される端末装置であって、マイクによって収音された車室内の音声に対して、音声認識機能を有する複数のサーバ装置のうち二以上のサーバ装置のそれぞれに応じた前処理を行う二以上の前処理部と、前記二以上の前処理部のそれぞれにより前処理が行われた音声を、通信部を用いて、対応するサーバ装置に送信する通信制御部と、を備えるものである。
(2):上記(1)の態様において、前記通信制御部は、前記複数のサーバ装置のうち第1のサーバ装置に対しては、少なくとも、前記前処理部による前処理が行われなかった音声を送信するものである。
(3):上記(2)の態様において、前記二以上の前処理部のうち、前記第1のサーバ装置以外のサーバ装置に応じた前処理を行う前処理部を実現する第1のOSと、前記前処理部による前処理が行われなかった音声を取り出すための第2のOSと、を搭載しているものである。
(4):上記(1)から(3)の態様において、前記二以上の前処理部のうち一部または全部は、シーケンシャルに処理を行うものである。
(5):上記(1)から(4)の態様において、前記複数のサーバ装置のそれぞれに対応した複数の前記通信制御部を備えるものである。
(6):本発明の他の態様に係る端末装置の制御方法は、車両に搭載される端末装置の制御方法であって、前記端末装置が備える二以上の前処理部のそれぞれが、マイクによって収音された車室内の音声に対して、音声認識機能を有する複数のサーバ装置のうち二以上のサーバ装置のそれぞれに応じた前処理を行い、前記二以上の前処理部のそれぞれにより前処理が行われた音声を、通信部を用いて、対応するサーバ装置に送信するものである。
(7):本発明の他の態様に係るプログラムは、車両に搭載される端末装置により実行されるプログラムであって、前記端末装置に、マイクによって収音された車室内の音声に対して、音声認識機能を有する複数のサーバ装置のうち二以上のサーバ装置のそれぞれに応じた前処理を行わせ、前記複数のサーバ装置のそれぞれに応じた前処理が行われた音声を、通信部を用いて、対応するサーバ装置に送信させるものである。
上記(1)〜(7)の態様によれば、音声認識機能を有し、互いに異なる複数のサーバ装置を有効に活用することができる。
端末装置100を含むサービスシステム1の構成図である。 第1実施形態に係る端末装置100の構成と、車両Mに搭載された機器とを示す図である。 表示・操作装置20の配置例を示す図である。 スピーカユニット30の配置例を示す図である。 サーバ装置200の構成の一例を示す図である。 前処理部により実行される処理について説明するための図である。
以下、図面を参照し、本発明の端末装置、端末装置の制御方法、およびプログラムの実施形態について説明する。端末装置は、サービスシステムの一部または全部を実現する装置である。端末装置は、例えば、車両(以下、車両M)に搭載される。サービスシステムとは、車両Mの車室内で収集された音声をサーバ装置に送信し、サーバ装置で音声認識を含めた情報処理が行われた結果を車両Mに返信し、車両Mで何らかのサービス(情報提供、機器制御など、如何なるものでもよい)が提供されるシステムである。
サービスシステムでは、例えば、乗員の音声を認識する音声認識機能(音声をテキスト化する機能)、自然言語処理機能(テキストの構造や意味を理解する機能)、その他各種サービス機能等を統合的に利用して実現される。これらの機能の一部または全部は、AI(Artificial Intelligence)技術によって実現されてよい。
[全体構成]
図1は、端末装置100を含むサービスシステム1の構成図である。サービスシステム1は、例えば、端末装置100と、複数のサーバ装置200−1、200−2、200−3、200−4…とを備える。符号の末尾のハイフン以下数字は、サービスを区別するための識別子であるものとする。いずれのサーバ装置であるかを区別しない場合、単にサーバ装置200と称する場合がある。図1では3つのサーバ装置200を示しているが、サーバ装置200の数は2つ以下であってもよいし、3つ以上であってもよい。それぞれのサーバ装置200は、互いに異なるサービスの提供者が運営するものである。従って、本発明におけるサービスは、互いに異なる提供者により実現されるものである。任意の主体(法人、団体、個人等)がサービスの提供者となり得る。
端末装置100は、ネットワークNWを介してサーバ装置200と通信する。ネットワークNWは、例えば、インターネット、セルラー網、Wi−Fi網、WAN(Wide Area Network)、LAN(Local Area Network)、公衆回線、電話回線、無線基地局などのうち一部または全部を含む。
端末装置100は、車両Mの乗員により発せられた音声をサーバ装置200に送信し、サーバ装置200から返信された情報に基づいて乗員に任意のサービスを提供する。サービスは、単に音声認識された内容を表示するものであってもよいし、任意の言語に翻訳するものであってもよいし、その他、如何なるサービスであってもよい。
[車両]
図2は、第1実施形態に係る端末装置100の構成と、車両Mに搭載された機器とを示す図である。車両Mには、例えば、一以上のマイク10と、表示・操作装置20と、スピーカユニット30と、車載通信装置60と、端末装置100とが搭載される。また、スマートフォンなどの汎用通信装置70が車室内に持ち込まれ、通信装置として使用される場合がある。これらの装置は、CAN(Controller Area Network)通信線等の多重通信線やシリアル通信線、無線通信網等によって互いに接続される。なお、図2に示す構成はあくまで一例であり、構成の一部が省略されてもよいし、更に別の構成が追加されてもよい。
マイク10は、車室内で発せられた音声を収集する収音部である。表示・操作装置20は、画像を表示すると共に、入力操作を受付可能な装置(或いは装置群)である。表示・操作装置20は、例えば、タッチパネルとして構成されたディスプレイ装置を含む。表示・操作装置20は、更に、HUD(Head Up Display)や機械式の入力装置を含んでもよい。スピーカユニット30は、例えば、車室内の互いに異なる位置に配設された複数のスピーカ(音出力部)を含む。表示・操作装置20は、端末装置100とナビゲーション装置40とで共用されてもよい。
車載通信装置60は、例えば、セルラー網やWi−Fi網を利用してネットワークNWにアクセス可能な無線通信装置である。
図3は、表示・操作装置20の配置例を示す図である。表示・操作装置20は、例えば、第1ディスプレイ22と、第2ディスプレイ24と、操作スイッチASSY26とを含む。表示・操作装置20は、更に、HUD28を含んでもよい。
車両Mには、例えば、ステアリングホイールSWが設けられた運転席DSと、運転席DSに対して車幅方向(図中Y方向)に設けられた助手席ASとが存在する。第1ディスプレイ22は、インストルメントパネルにおける運転席DSと助手席ASとの中間辺りから、助手席ASの左端部に対向する位置まで延在する横長形状のディスプレイ装置である。第2ディスプレイ24は、運転席DSと助手席ASとの車幅方向に関する中間あたり、且つ第1ディスプレイの下方に設置されている。例えば、第1ディスプレイ22と第2ディスプレイ24は、共にタッチパネルとして構成され、表示部としてLCD(Liquid Crystal Display)や有機EL(Electroluminescence)、プラズマディスプレイなどを備えるものである。操作スイッチASSY26は、ダイヤルスイッチやボタン式スイッチなどが集積されたものである。表示・操作装置20は、乗員によってなされた操作の内容を端末装置100に出力する。第1ディスプレイ22または第2ディスプレイ24が表示する内容は、端末装置100によって決定されてよい。
図4は、スピーカユニット30の配置例を示す図である。スピーカユニット30は、例えば、スピーカ30A〜30Hを含む。スピーカ30Aは、運転席DS側の窓柱(いわゆるAピラー)に設置されている。スピーカ30Bは、運転席DSに近いドアの下部に設置されている。スピーカ30Cは、助手席AS側の窓柱に設置されている。スピーカ30Dは、助手席ASに近いドアの下部に設置されている。スピーカ30Eは、右側後部座席BS1側に近いドアの下部に設置されている。スピーカ30Fは、左側後部座席BS2側に近いドアの下部に設置されている。スピーカ30Gは、第2ディスプレイ24の近傍に設置されている。スピーカ30Hは、車室の天井(ルーフ)に設置されている。
係る配置において、例えば、専らスピーカ30Aおよび30Bに音を出力させた場合、音像は運転席DS付近に定位することになる。また、専らスピーカ30Cおよび30Dに音を出力させた場合、音像は助手席AS付近に定位することになる。また、専らスピーカ30Eに音を出力させた場合、音像は右側後部座席BS1付近に定位することになる。また、専らスピーカ30Fに音を出力させた場合、音像は左側後部座席BS2付近に定位することになる。また、専らスピーカ30Gに音を出力させた場合、音像は車室の前方付近に定位することになり、専らスピーカ30Hに音を出力させた場合、音像は車室の上方付近に定位することになる。これに限らず、スピーカユニット30は、ミキサーやアンプを用いて各スピーカの出力する音の配分を調整することで、車室内の任意の位置に音像を定位させることができる。
[端末装置]
図2に戻り、端末装置100は、例えば、第1管理部110と、第2管理部120と、通信制御部150−1〜150−3と、ペアリングアプリ実行部152とを備える。第1管理部110は、前処理部112−1、112−2と、表示制御部116と、音声制御部118とを備える。第2管理部120は、前処理部122−3と、表示制御部126と、音声制御部128とを備える。いずれの通信制御部であるか区別しない場合、単に通信制御部150と称する。3つの通信制御部150を示しているのは、図1におけるサーバ装置200の数に対応させた一例に過ぎず、通信制御部150の数は、2つであってもよいし、4つ以上であってもよい。図2に示すソフトウェア配置は説明のために簡易に示しており、実際には、例えば、通信制御部150と車載通信装置60の間に管理部110が介在してもよいように、任意に改変することができる。
端末装置100の各構成要素は、例えば、CPU(Central Processing Unit)などのハードウェアプロセッサがプログラム(ソフトウェア)を実行することにより実現される。これらの構成要素のうち一部または全部は、LSI(Large Scale Integration)やASIC(Application Specific Integrated Circuit)、FPGA(Field-Programmable Gate Array)、GPU(Graphics Processing Unit)などのハードウェア(回路部;circuitryを含む)によって実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。プログラムは、予めHDD(Hard Disk Drive)やフラッシュメモリなどの記憶装置(非一過性の記憶媒体を備える記憶装置)に格納されていてもよいし、DVDやCD−ROMなどの着脱可能な記憶媒体(非一過性の記憶媒体)に格納されており、記憶媒体がドライブ装置に装着されることでインストールされてもよい。
管理部110は、OS(Operating System)やミドルウェアなどのプログラムが実行されることで機能する。管理部120も同様であり、端末装置100は、管理部110を実現するためのOSと、管理部120を実現するためのOSとを別々に搭載してもよい。
前処理部112−1および通信制御部150−1は、サーバ装置200−1に対応した処理を行う。前処理部112−2および通信制御部150−2は、サーバ装置200−2に対応した処理を行う。前処理部122−3および通信制御部150−3は、サーバ装置200−3に対応した処理を行う。各前処理部は、対応するサーバ装置200が音声認識を行うのに適した状態となるように、音声に対する音響処理などを行ったり、行わなかったりする。通信制御部150は、対応する前処理部から出力される音声或いは音声処理が行われた結果を、対応するサーバ装置200に送信する。これらの詳細については後述する。
通信制御部150には、ペアリングアプリ実行部152を介して汎用通信装置70と連携し、サーバ装置200と通信するものがあってよい。通信制御部150−1は、車載通信装置60を用いてサーバ装置200−1と通信する。通信制御部150−2は、車載通信装置60を用いてサーバ装置200−2と通信する。通信制御部150−3は、ペアリングアプリ実行部152を介して汎用通信装置70と連携し、サーバ装置200−3と通信する。車載通信装置60および汎用通信装置70のそれぞれは、「通信部」の一例である。ペアリングアプリ実行部152は、例えば、Bluetooth(登録商標)によって汎用通信装置70とペアリングを行い、通信制御部150−3と汎用通信装置70とを接続させる。なお、通信制御部150−3は、USB(Universal Serial Bus)などを利用した有線通信によって汎用通信装置70に接続されるようにしてもよい。
表示制御部116および126は、サーバ装置200から返信された情報に基づく画像を第1ディスプレイ22または第2ディスプレイ24に表示させる。
音声制御部118および128は、サーバ装置200から返信された情報に基づく音声を、スピーカユニット30に含まれるスピーカのうち一部または全部に音声を出力させる。
[サーバ装置]
図5は、サーバ装置200の構成の一例を示す図である。ここでは、端末装置100からネットワークNWまでの物理的な通信についての説明を省略する。
サーバ装置200は、通信部210を備える。通信部210は、例えばNIC(Network Interface Card)などのネットワークインターフェースである。更に、サーバ装置200は、例えば、音声認識部220と、自然言語処理部222と、返信情報生成部224とを備える。これらの構成要素は、例えば、CPUなどのハードウェアプロセッサがプログラム(ソフトウェア)を実行することにより実現される。これらの構成要素のうち一部または全部は、LSIやASIC、FPGA、GPUなどのハードウェア(回路部;circuitryを含む)によって実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。プログラムは、予めHDDやフラッシュメモリなどの記憶装置(非一過性の記憶媒体を備える記憶装置)に格納されていてもよいし、DVDやCD−ROMなどの着脱可能な記憶媒体(非一過性の記憶媒体)に格納されており、記憶媒体がドライブ装置に装着されることでインストールされてもよい。
サーバ装置200は、記憶部250を備える。記憶部250は、上記の各種記憶装置により実現される。記憶部250には、辞書DB(データベース)252などのデータやプログラムが格納される。
通信部210が端末装置から音声或いは音声処理が行われた結果を取得すると、音声認識部220が音声認識を行ってテキスト化された文字情報を出力し、自然言語処理部222が文字情報に対して辞書DB252を参照しながら意味解釈を行う。辞書DB252は、文字情報に対して抽象化された意味情報が対応付けられたものである。辞書DB252は、同義語や類義語の一覧情報を含んでもよい。音声認識部220の処理と、自然言語処理部222の処理は、段階が明確に分かれるものではなく、自然言語処理部222の処理結果を受けて音声認識部220が認識結果を修正するなど、相互に影響し合って行われてよい。返信情報生成部224は、自然言語処理部222の処理結果に基づいて、端末装置100に返信する情報(返信情報)を生成する。返信情報は、如何なるものであってもよく、例えば、音声を別の言語に変換したものであってよい。なお、自然言語処理部222が省略され、サーバ装置200は単にテキスト化された文字情報を出力するものであってもよい。
[前処理]
以下、端末装置100において前処理部により実行される前処理について説明する。図6は、前処理部により実行される処理について説明するための図である。マイク10により収音された音声は、例えば、前処理部112−1と、少なくとも通信制御部150−3とに供給される。なお、図6に示す例はあくまで一例であり、マイク10により収音された音声は、各前処理部に並行して供給されてよい。
前処理部112−1は、例えば、入力された音声に対してビームフォーミング、ノイズキャンセル、イコライジングなどの処理を行った処理済音声(1)を含む処理結果(1)を通信制御部150−1に出力する。また、前処理部112−1は、処理済音声(1)に対して簡易な音声認識を行い、その結果を処理結果(1)に含めて通信制御部150−1に出力してもよい。通信制御部150−1は、車載通信装置60を用いて処理結果(1)をサーバ装置200−1に送信させる。処理済音声(1)は、前処理部112−2に出力される。
前処理部112−2は、例えば、入力された処理済音声(1)に対して、前処理部112−1の処理だけでは不足する分の処理を行った処理済音声(2)を含む処理結果(2)を通信制御部150−2に出力する。また、前処理部112−2は、処理済音声(2)に対して簡易な音声認識を行い、その結果を処理結果(2)に含めて通信制御部150−1に出力してもよい。通信制御部150−2は、車載通信装置60を用いて処理結果(2)をサーバ装置200−2に送信させる。
前処理部122−3は省略されてもよく、前処理部122−3が存在する場合も、存在しない場合も、通信制御部150−3には、マイク10により収音された音声が入力される。前処理部122−3が存在する場合、前処理部122−3は、入力された音声に対してビームフォーミング、ノイズキャンセル、イコライジングなどの処理を行った処理済音声(3)を含む処理結果(3)を通信制御部150−3に出力する。また、前処理部112−1は、処理済音声(3)に対して簡易な音声認識を行い、その結果を処理結果(3)に含めて通信制御部150−3に出力してもよい。通信制御部150−3は、ペアリングアプリ実行部152を介して汎用通信装置70に指示し、少なくともマイク10により収音された音声をサーバ装置200−3に送信する。また、通信制御部150−3は、更に、処理結果(3)をサーバ装置200−3に送信してもよい。サーバ装置200−3は、「第1のサーバ装置」の一例である。
このように、実施形態の端末装置100によれば、音声認識機能を有する複数のサーバ装置200のうち二以上のサーバ装置200のそれぞれに応じた前処理を行う二以上の前処理部を備え、二以上の前処理部のそれぞれにより前処理が行われた音声を、通信制御部150が対応するサーバ装置200に送信する。これによって、サーバ装置200の特性に応じた前処理がなされた処理結果を、それぞれのサーバ装置200に送信することができる。例えば、あるサーバ装置200はノイズ耐性が強く、別のサーバ装置200はノイズ耐性が弱い場合、前者に対してはマイク10により収音された音声に近いデータを送信し、後者に対しては強めのノイズキャンセルを行ったデータを送信することで、いずれのサーバ装置200に対しても要求品質に近いデータを送信することができる。この結果、音声認識機能を有し、互いに異なる複数のサーバ装置200を有効に活用することができる。
また、端末装置100において、通信制御部150−3は、サーバ装置200−3に対しては、少なくとも、前処理部122−3による前処理が行われなかった音声を送信する。これによって、前処理が行われていない音声を要求するサーバ装置200−3に対しても音声認識のための適切なデータを送信することができる。
また、端末装置100において、サーバ装置200−3以外のサーバ装置200に応じた前処理を行う前処理部を実現する第1のOSと、サーバ装置200−3に送信するために前処理部による前処理が行われなかった音声を取り出すための第2のOSとを搭載している。これによって、同一のソフトウェアで処理を行う場合に必要となる調停等の煩わしさを解消することができる。
また、端末装置100において、前処理部112−1と前処理部112−2はシーケンシャルに(直列に、連続的に)処理を行う。これによって、両者に共通する処理がある場合に、前処理部112−1のみが共通する処理に係る機能を実装すればよいため、メモリ資源を節約することができる。また、並列に処理を行うのではないため、両者に排他的な処理結果が生じるような懸念も解消されている。
以上説明した実施形態の端末装置100によれば、音声認識機能を有し、互いに異なる複数のサーバ装置を有効に活用することができる。
以上、本発明を実施するための形態について実施形態を用いて説明したが、本発明はこうした実施形態に何等限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形及び置換を加えることができる。
10 マイク
20 表示・操作装置
30 スピーカユニット
60 車載通信装置
70 汎用通信装置
100 端末装置
110 第1管理部
112−1、112−2、122−3 前処理部
116、126 表示制御部
118、128 音声制御部
120 第2管理部
150−1、150−2、150−3 通信制御部
152 ペアリングアプリ実行部
200−1、200−2、200−3 サーバ装置

Claims (7)

  1. 車両に搭載される端末装置であって、
    マイクによって収音された車室内の音声に対して、音声認識機能を有する複数のサーバ装置のうち二以上のサーバ装置のそれぞれに応じた前処理を行う二以上の前処理部と、
    前記二以上の前処理部のそれぞれにより前処理が行われた音声を、通信部を用いて、対応するサーバ装置に送信する通信制御部と、
    を備える端末装置。
  2. 前記通信制御部は、前記複数のサーバ装置のうち第1のサーバ装置に対しては、少なくとも、前記前処理部による前処理が行われなかった音声を送信する、
    請求項1記載の端末装置。
  3. 前記二以上の前処理部のうち、前記第1のサーバ装置以外のサーバ装置に応じた前処理を行う前処理部を実現する第1のOSと、
    前記前処理部による前処理が行われなかった音声を取り出すための第2のOSと、
    を搭載している、請求項2記載の端末装置。
  4. 前記二以上の前処理部のうち一部または全部は、シーケンシャルに処理を行う、
    請求項1から3のうちいずれか1項記載の端末装置。
  5. 前記複数のサーバ装置のそれぞれに対応した複数の前記通信制御部を備える、
    請求項1から4のうちいずれか1項記載の端末装置。
  6. 車両に搭載される端末装置の制御方法であって、
    前記端末装置が備える二以上の前処理部のそれぞれが、マイクによって収音された車室内の音声に対して、音声認識機能を有する複数のサーバ装置のうち二以上のサーバ装置のそれぞれに応じた前処理を行い、
    前記二以上の前処理部のそれぞれにより前処理が行われた音声を、通信部を用いて、対応するサーバ装置に送信する、
    端末装置の制御方法。
  7. 車両に搭載される端末装置により実行されるプログラムであって、
    前記端末装置に、
    マイクによって収音された車室内の音声に対して、音声認識機能を有する複数のサーバ装置のうち二以上のサーバ装置のそれぞれに応じた前処理を行わせ、
    前記複数のサーバ装置のそれぞれに応じた前処理が行われた音声を、通信部を用いて、対応するサーバ装置に送信させる、
    プログラム。
JP2019059873A 2019-03-27 2019-03-27 端末装置、端末装置の制御方法、およびプログラム Active JP7278830B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2019059873A JP7278830B2 (ja) 2019-03-27 2019-03-27 端末装置、端末装置の制御方法、およびプログラム
CN202010215503.6A CN111755007B (zh) 2019-03-27 2020-03-24 终端装置、终端装置的控制方法及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019059873A JP7278830B2 (ja) 2019-03-27 2019-03-27 端末装置、端末装置の制御方法、およびプログラム

Publications (2)

Publication Number Publication Date
JP2020160281A true JP2020160281A (ja) 2020-10-01
JP7278830B2 JP7278830B2 (ja) 2023-05-22

Family

ID=72643185

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019059873A Active JP7278830B2 (ja) 2019-03-27 2019-03-27 端末装置、端末装置の制御方法、およびプログラム

Country Status (2)

Country Link
JP (1) JP7278830B2 (ja)
CN (1) CN111755007B (ja)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000148185A (ja) * 1998-11-13 2000-05-26 Matsushita Electric Ind Co Ltd 認識装置及び認識方法
JP2005003997A (ja) * 2003-06-12 2005-01-06 Toyota Motor Corp 音声認識装置および音声認識方法ならびに車両
JP2011232619A (ja) * 2010-04-28 2011-11-17 Ntt Docomo Inc 音声認識装置および音声認識方法
JP2013007764A (ja) * 2011-06-22 2013-01-10 Clarion Co Ltd 音声データ中継装置、端末装置、音声データ中継方法、および音声認識システム
JP2016126330A (ja) * 2014-12-26 2016-07-11 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 音声認識装置及び音声認識方法
JP2016151608A (ja) * 2015-02-16 2016-08-22 アルパイン株式会社 電子装置、情報端末システム、音声認識機能の起動プログラムおよび音声認識機能の起動方法
JP2019028160A (ja) * 2017-07-27 2019-02-21 アルパイン株式会社 電子装置および情報端末システム

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001333265A (ja) * 2000-05-19 2001-11-30 Hideo Nakajima 電子すかしを埋め込んだ電子くじと通信網を使用した電子くじの運用方法。
US9449602B2 (en) * 2013-12-03 2016-09-20 Google Inc. Dual uplink pre-processing paths for machine and human listening
JP6595324B2 (ja) * 2015-12-04 2019-10-23 クラリオン株式会社 車載装置、音声認識システム
US20180075842A1 (en) * 2016-09-14 2018-03-15 GM Global Technology Operations LLC Remote speech recognition at a vehicle
US10304463B2 (en) * 2016-10-03 2019-05-28 Google Llc Multi-user personalization at a voice interface device

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000148185A (ja) * 1998-11-13 2000-05-26 Matsushita Electric Ind Co Ltd 認識装置及び認識方法
JP2005003997A (ja) * 2003-06-12 2005-01-06 Toyota Motor Corp 音声認識装置および音声認識方法ならびに車両
JP2011232619A (ja) * 2010-04-28 2011-11-17 Ntt Docomo Inc 音声認識装置および音声認識方法
JP2013007764A (ja) * 2011-06-22 2013-01-10 Clarion Co Ltd 音声データ中継装置、端末装置、音声データ中継方法、および音声認識システム
JP2016126330A (ja) * 2014-12-26 2016-07-11 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 音声認識装置及び音声認識方法
JP2016151608A (ja) * 2015-02-16 2016-08-22 アルパイン株式会社 電子装置、情報端末システム、音声認識機能の起動プログラムおよび音声認識機能の起動方法
JP2019028160A (ja) * 2017-07-27 2019-02-21 アルパイン株式会社 電子装置および情報端末システム

Also Published As

Publication number Publication date
CN111755007B (zh) 2024-05-07
CN111755007A (zh) 2020-10-09
JP7278830B2 (ja) 2023-05-22

Similar Documents

Publication Publication Date Title
CN105189179B (zh) 用于主动对话控制的方法和装置
JP2009300537A (ja) 音声作動システム、音声作動方法および車載装置
JP7198122B2 (ja) エージェント装置、エージェント装置の制御方法、およびプログラム
JP7278830B2 (ja) 端末装置、端末装置の制御方法、およびプログラム
JP2021096717A (ja) 情報提供装置、情報提供方法、およびプログラム
CN111667824A (zh) 智能体装置、智能体装置的控制方法及存储介质
JP2020144264A (ja) エージェント装置、エージェント装置の制御方法、およびプログラム
JP2020131805A (ja) エージェント装置、エージェント装置の制御方法、およびプログラム
JP2020162003A (ja) エージェント装置、エージェント装置の制御方法、およびプログラム
CN111667823B (zh) 智能体装置、智能体装置的控制方法及存储介质
US20200317215A1 (en) Agent system, agent server, method of controlling agent server, and storage medium
JP7245695B2 (ja) サーバ装置、情報提供システム、および情報提供方法
JP2020160133A (ja) エージェントシステム、エージェントシステムの制御方法、およびプログラム
CN111661065A (zh) 智能体装置、智能体装置的控制方法及存储介质
JP7169921B2 (ja) エージェント装置、エージェントシステム、エージェント装置の制御方法、およびプログラム
JP2020148583A (ja) エージェント装置、エージェント装置の制御方法、およびプログラム
JP2020142721A (ja) エージェントシステム、車載機器の制御方法、及びプログラム
JP2020157853A (ja) 車載エージェントシステム、車載エージェントシステムの制御方法、およびプログラム
JP7274901B2 (ja) エージェント装置、エージェント装置の制御方法、およびプログラム
CN111559317B (zh) 智能体装置、智能体装置的控制方法及存储介质
JP7280074B2 (ja) エージェント装置、エージェント装置の制御方法、およびプログラム
JP2024067241A (ja) 車載装置およびシステム
CN117864047A (zh) 一种基于声源定位与表情识别的显示屏控制方法及系统
JP2021099735A (ja) エージェント装置
JP2020160132A (ja) エージェント装置、エージェント装置の制御方法、プログラム、エージェントサーバ、およびエージェントサーバの制御方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211126

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20221011

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221018

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221219

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230418

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230510

R150 Certificate of patent or registration of utility model

Ref document number: 7278830

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150