JP7465700B2 - 車載装置および車載装置における音声処理方法 - Google Patents

車載装置および車載装置における音声処理方法 Download PDF

Info

Publication number
JP7465700B2
JP7465700B2 JP2020058355A JP2020058355A JP7465700B2 JP 7465700 B2 JP7465700 B2 JP 7465700B2 JP 2020058355 A JP2020058355 A JP 2020058355A JP 2020058355 A JP2020058355 A JP 2020058355A JP 7465700 B2 JP7465700 B2 JP 7465700B2
Authority
JP
Japan
Prior art keywords
voice
terminal device
interface unit
microphone
detection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020058355A
Other languages
English (en)
Other versions
JP2021158578A (ja
Inventor
勝昭 引間
大輔 山▲崎▼
太 小菅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Denso Ten Ltd
Original Assignee
Denso Ten Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Denso Ten Ltd filed Critical Denso Ten Ltd
Priority to JP2020058355A priority Critical patent/JP7465700B2/ja
Priority to US17/190,835 priority patent/US11580981B2/en
Priority to CN202110299803.1A priority patent/CN113450789A/zh
Publication of JP2021158578A publication Critical patent/JP2021158578A/ja
Application granted granted Critical
Publication of JP7465700B2 publication Critical patent/JP7465700B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60RVEHICLES, VEHICLE FITTINGS, OR VEHICLE PARTS, NOT OTHERWISE PROVIDED FOR
    • B60R11/00Arrangements for holding or mounting articles, not otherwise provided for
    • B60R11/02Arrangements for holding or mounting articles, not otherwise provided for for radio sets, television sets, telephones, or the like; Arrangement of controls thereof
    • B60R11/0247Arrangements for holding or mounting articles, not otherwise provided for for radio sets, television sets, telephones, or the like; Arrangement of controls thereof for microphones or earphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02163Only one microphone
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Mechanical Engineering (AREA)
  • Telephone Function (AREA)

Description

本発明は、車載装置および車載装置における音声処理方法に関する。
従来、音声認識技術や自然言語処理などを利用してユーザの話す内容を理解し、ユーザの指示や要求に対して適切な回答や処理を行う音声アシスタント機能が知られている。音声アシスタント機能は、例えばスマートフォン等の端末装置に搭載されている。
また、音声アシスタント機能を起動する際に、ウェイクアップワードを利用することが知られている(例えば特許文献1参照)。ウェイクアップワードは、指令または命令を送信するトリガとなる所定のワードであり、指令等を出す前にユーザから発せられる所定ワードである。ウェイクアップワードは、例えば、「ハロー、マイコンピュータ」や「ヘイ、ビークル」等である。例えば、ユーザは、「ハロー、マイコンピュータ、近くにあるカフェを教えて。」といった発声を行う。ウェイクアップワードを含むフレーズが検出されれば、音声アシスタント機能が起動され、自動音声認識技術により理解されたユーザの指示や要求に対して適切な回答や処理が行われる。
特開2019-174778号公報
ところで、例えば車両の運転中に安全に端末装置を利用することができるように、端末装置と車載装置とを接続する技術が知られている。この技術に関連して、端末装置に接続される車載装置を介して、端末装置の音声アシスタント機能を利用することが考えられる。車載装置を介して端末装置の音声アシスタント機能を利用する場合でも、ウェイクアップワードを利用した音声アシスタント機能の起動が必要以上に遅くならないことが望まれる。
本発明は、音声アシスタント機能を有する端末装置と接続された車載装置において、特定の言葉(ウェイクアップワード)を用いた音声アシスタント機能の起動を短時間で行うことができる技術を提供することを目的とする。
上記目的を達成するために本発明の車載装置は、音声アシスタント機能を有する端末装置と接続可能な車載装置であって、マイクから入力される音声信号を音声認識して、その認識結果に基づいて前記車載装置の種々の機能を制御する音声検出部と、前記端末装置と通信するインターフェース部と、を備え、前記インターフェース部は、前記音声検出部が、前記音声信号を音声認識した結果、前記音声信号に、前記音声アシスタント機能を起動するための特定の言葉が含まれていることを検出したことを通知されたときは、前記音声検出部を介することなく前記マイクから入力された音声信号を前記端末装置に伝送する構成(第1の構成)になっている。
また、上記第1の構成の車載装置において、前記音声検出部は、前記特定の言葉を検出したときに、前記インターフェース部を介して、前記端末装置に前記特定の言葉の検出を通知し、前記インターフェース部は、前記特定の言葉の検出を通知された前記端末装置からの要求によって、前記音声検出部を介することなく前記マイクから入力された音声信号を前記端末装置に伝送する構成(第2の構成)であってよい。
また、上記第1又は第2の構成の車載装置において、前記インターフェース部は、前記マイクから入力された音声信号を一時的に蓄積するインターフェース部バッファを有し、前記インターフェース部は、前記特定の言葉の検出の通知を受けて、前記インターフェース部バッファに蓄積された音声信号を、前記端末装置に伝送する構成(第3の構成)であってよい。
また、上記第3の構成の車載装置において、前記インターフェース部は、前記インターフェース部バッファに蓄積された音声信号の、前記通知を受けた時点から所定時間遡った時点からの音声信号を、前記端末装置に伝送する構成(第4の構成)であってよい。
また、上記第1から第4のいずれかの構成の車載装置は、前記音声検出部が有する第1のエコーキャンセラおよびノイズキャンセラと異なる第2のエコーキャンセラおよびノイズキャンセラを更に備え、前記インターフェース部には、前記マイクからの音声信号が前記第2のエコーキャンセラおよびノイズキャンセラを介して入力される構成(第5の構成)であることが好ましい。
また、上記第5の構成の車載装置において、前記第2のエコーキャンセラおよびノイズキャンセラは、前記端末装置を用いたハンズフリー通話時に使用されるエコーキャンセラおよびノイズキャンセラを兼ねる構成(第6の構成)であることが好ましい。
また、上記第1から第6のいずれかの構成の車載装置において、前記音声検出部は、前記マイクからの音声信号が入力される第1のエコーキャンセラおよびノイズキャンセラと、前記第1のエコーキャンセラおよびノイズキャンセラを通過した音声信号が入力され、前記特定の言葉を認識可能に設けられる自動音声認識部と、前記第1のエコーキャンセラおよびノイズキャンセラを通過した音声信号を一時的に保持する音声検出部バッファと、を有する構成(第7の構成)であってよい。
また、上記目的を達成するために本発明の車載装置における音声処理方法は、音声アシスタント機能を有する端末装置と接続可能な車載装置における音声処理方法であって、前記車載装置は、マイクから入力される音声信号を音声認識して、その認識結果に基づいて前記車載装置の種々の機能を制御する音声検出部と、前記端末装置と通信するインターフェース部と、を備え、前記マイクから入力された音声信号を前記音声検出部に向けて送信する第1のステップと、前記音声検出部にて前記音声アシスタント機能を起動するための特定の言葉が検出された場合に、前記特定の言葉の検出を前記インターフェース部に通知する第2のステップと、前記特定の言葉の検出の通知により、前記インターフェース部が前記マイクから送信された音声信号を、前記音声検出部を介することなく前記端末装置に伝送する第3のステップと、を備える構成(第8の構成)になっている。
本発明によれば、音声アシスタント機能を有する端末装置と接続された車載装置において、特定の言葉を用いた音声アシスタント機能の起動を短時間で行うことができる。
音声処理システムの構成を示す模式図 演算処理部の機能構成を示すブロック図 車載装置により端末装置の音声アシスタント機能を利用する際の処理の流れを例示するフローチャート 本実施形態の車載装置の効果を説明するための比較例を示す図
以下、本発明の例示的な実施形態について、図面を参照しながら詳細に説明する。
<1.音声処理システム>
図1は、本発明の実施形態に係る音声処理システム100の構成を示す模式図である。図1に示すように、音声処理システム100は、大きくは、車載装置1と、端末装置2と、サーバ装置3と、を備える。
車載装置1は、マイク(マイクロホンの略語)4と有線又は無線にて接続される。車載装置1には、マイク4を介してユーザの発話音声が入力される。車載装置1は、マイク4から入力された音声信号を処理する。また、車載装置1は、スピーカ5と有線又は無線にて接続される。車載装置1は、スピーカ5から音声を出力するために必要となる音声信号の処理を行う。スピーカ5は、車載装置1から入力された音声信号を音声に変換して出力する。
なお、本実施形態では、マイク4およびスピーカ5は、車載装置1とは別の装置である。ただし、マイク4およびスピーカ5は、車載装置1に含まれてもよい。
本実施形態では、車載装置1は、音声処理装置として機能し、車両7に搭載される。マイク4およびスピーカ5も、車両7に搭載される。ただし、車載装置1は、車載との文言にとらわれることなく、車両以外の移動体に搭載されてもよい。車両以外の移動体は、例えば、船舶や航空機等であってよい。また、車載装置1は、車載との文言にとらわれることなく、例えば室内等に配置されてもよい。車載装置1は、音声処理機能だけでなく、例えばオーディオ機能、ナビゲーション機能、或いは、これらの両機能を有する複合装置であってもよい。
端末装置2は、車載装置1と有線又は無線にて接続される。換言すると、車載装置1は、端末装置2と接続可能に設けられる。本実施形態において、端末装置2は、音声アシスタント機能を有する。端末装置2は、例えばスマートフォン又はタブレット端末である。端末装置2は、ネットワーク6を介してサーバ装置3と通信可能に設けられる。本実施形態では、端末装置2は、ユーザが車両7に持ち込み、車載装置1と接続して使用することが想定されている。端末装置2が車載装置1と接続されることにより、ユーザ(運転者)は、運転中に端末装置2自体を操作することなく、安全に端末装置2の機能を利用することが可能になる。
サーバ装置3は、人工知能(AI)を備える。人工知能は、音声の解読を行い、音声内容に沿った処理を行う。端末装置2の音声アシスタント機能が起動すると、ユーザの音声による命令がネットワーク6を介してサーバ装置3に送られ、人工知能が、その命令を解読して、命令に沿った処理を実行する。ここで、命令に沿った処理とは、例えば、映像や音楽、或いは、調べ物などの検索処理が挙げられる。
なお、本実施形態では、端末装置2が有する音声アシスタント機能は、ユーザの発話音声の中に含まれる特定の言葉を検出した場合に起動する。特定の言葉は、いわゆるウェイクアップワードである。以下、端末装置2が有する音声アシスタント機能を起動させる特定の言葉のことをウェイクアップワードと記載する。本実施形態では、ユーザがウェイクアップワードをマイク4に向けて発すると、車載装置1の動作により端末装置2の音声アシスタント機能が起動する。
<2.車載装置の詳細構成>
図1に示すように、車載装置1は、音声信号の処理を行う演算処理部(演算処理回路)10を備える。演算処理部10は、例えば、CPU(Central Processing Unit)、RAM(Random Access Memory)、および、ROM(Read Only Memory)等を含むコンピュータであってよい。
図2は、本発明の実施形態に係る演算処理部10の機能構成を示すブロック図である。図2において、実線の矢印は音声信号の流れを示し、破線の矢印はコマンドの流れを示す。図2に示す各ブロックは、コンピュータが有するCPUがメモリに記憶されるプログラムに従って演算処理を実行することにより実現される機能である。
図2に示すように、演算処理部10は、音声入出力制御部11と、音声検出部12と、中継部13と、を備える。換言すると、車載装置1は、音声入出力制御部11と、音声検出部12と、中継部13とを備える。
音声入出力制御部11は、音声信号の入出力を制御する。音声入出力制御部11は、マイク4から入力される音声信号を制御する。音声入出力制御部11は、スピーカ5から出力する音声信号を制御する。音声入出力制御部11は、例えば、ALSA(Advanced Linux(登録商標) Sound Architecture)等のサウンドドライバで構成される。
音声入出力制御部11はインターフェース部111を備える。換言すると、車載装置1はインターフェース部111を備える。インターフェース部111は、端末装置2との接続を可能とする。インターフェース部111は、端末装置2と通信する。本実施形態では、インターフェース部111は、端末装置2が備える特定のアプリケーションソフトウェアを使用可能とするためのインターフェース用ソフトウェアである。インターフェース部111の詳細については後述する。
音声検出部12は、マイク4から音声信号が入力される。詳細には、音声検出部12は、マイク4から音声入出力制御部11を介して音声信号が入力される。音声検出部12は、マイク4から入力される音声信号を音声認識して、その認識結果に基づいて車載装置1の種々の機能を制御する。音声検出部12は、端末装置2が有する音声アシスタント機能を起動するウェイクアップワード(特定の言葉)を検出する。詳細には、音声検出部12は、マイク4から入力される音声の中に、ウェイクアップワードが含まれる場合に、当該ウェイクアップワードを検出する。
なお、音声検出部12は、端末装置2の音声アシスタント機能を起動するウェイクアップワードのみを検出する構成でもよいが、他の言葉も検出可能な構成であってよい。例えば、端末装置2が有する音声アシスタント機能用のウェイクアップワードに加えて、端末装置2とは別の音声アシスタント機能を有する車載機器用のウェイクアップワードも検出する構成であってよい。
図2に示すように、詳細には、音声検出部12は、第1のエコーキャンセラおよびノイズキャンセラ121と、自動音声認識部122と、音声検出部バッファ123と、を有する。以下、エコーキャンセラおよびノイズキャンセラのことをEC/NCと記載する。
第1のEC/NC121は、マイク4からの音声信号が入力される。第1のEC/NC121は、入力された音声信号から、反響(エコー)の除去と、ノイズの除去とを行い、処理後の音声信号を出力する。詳細には、第1のEC/NC121には、反響の除去のために、マイク4から入力される音声信号の他に、スピーカ5に出力される音声信号も入力される。また、第1のEC/NC121では、例えば公知のスペクトル・サブストラクト法(SS法)が利用されて、車両7の走行によって生じるロードノイズの除去が行われる。
自動音声認識部122は、第1のEC/NC121を通過した音声信号が入力される。自動音声認識部122は、音声信号をテキスト変換して、音声に含まれる特定の言葉を認識可能に設けられる。すなわち、自動音声認識部122は、ウェイクアップワード(特定の言葉)を認識可能に設けられる。更に言い換えると、自動音声認識部122は、ウェイクアップワードを認識して検出することができる。
音声検出部バッファ123は、第1のEC/NC121を通過した音声信号を一時的に保持する。音声検出部バッファ123で一時的に保持された音声信号は、例えば、端末装置2とは別の音声アシスタント機能を有する車載機器に音声信号を伝送するために使用されてもよい。
中継部13は、ソフトウェアインターフェースである。中継部13は、音声検出部12によってウェイクアップワードが検出された場合に、そのことを通知される。また、中継部13は、ウェイクアップワードが検出されたことを通知された場合に、そのことをインターフェース部111に通知する。
インターフェース部111は、ウェイクアップワードが検出された場合に、ウェイクアップワードの検出を通知される。また、インターフェース部111は、端末装置2にウェイクアップワードの検出を通知する。換言すると、音声検出部12は、音声信号にウェイクアップワードが含まれることを検出したときに、インターフェース部111を介して、端末装置2にウェイクアップワードの検出を通知する。なお、端末装置2は、ウェイクアップワードの検出を通知されると、音声アシスタント機能を起動させるために音声情報を要求する。
インターフェース部111は、音声検出部12が、音声信号を音声認識した結果、音声信号にウェイクアップワードが含まれていることを検出したことを通知されたときは、音声検出部12を介することなくマイク4から入力された音声信号を端末装置2に伝送する。詳細には、インターフェース部111は、ウェイクアップワードの検出を通知された端末装置2からの要求によって、音声検出部12を介することなくマイク4から入力された音声信号を端末装置2に伝送する。なお、インターフェース部111は、端末装置2からの要求ではなく、車載装置1の内部処理にしたがって、音声検出部12を介することなくマイク4から入力された音声信号を端末装置2に伝送する構成としてもよい。また、インターフェース部111は、マイク4から入力された音声信号を一時的に蓄積するインターフェース部バッファ1111を有する。インターフェース部111は、ウェイクアップワードの検出の通知を受けて、インターフェース部バッファ1111に蓄積された音声信号を端末装置2に伝送する。
本実施形態では、音声入出力制御部11は、音声検出部12が有する第1のEC/NC121と異なる第2のEC/NC112を更に備える。すなわち、車載装置1は、音声検出部12が有する第1のEC/NC121と異なる第2のEC/NC112を更に備える。第2のEC/NC112には、マイク4から音声信号が入力される。第2のEC/NC112は、入力された音声信号から、反響(エコー)の除去と、ノイズの除去とを行い、処理後の音声信号を出力する。第2のEC/NC112が反響およびノイズの除去を行う手法は、第1のEC/NC121と同様である。
インターフェース部111には、マイク4からの音声信号が第2のEC/NC112を介して入力される。このために、インターフェース部111から端末装置2に伝送される音声信号の品質を向上することができる。これにより、端末装置2において音声の検出を精度良く行うことが可能になる。
本実施形態では、音声入出力制御部11はミキサ113を更に備える。ミキサ113は、端末装置2から複数種類の音声信号が出力されることに対応する。ミキサ113が設けられることにより、端末装置2から出力された複数種類の音声信号を一纏めにしてスピーカ5に出力することができる。なお、本実施形態では、第1のEC/NC121および第2のEC/NC112において反響の除去を行うために、ミキサ113から出力された音声信号は、スピーカ5の他に、第1のEC/NC121および第2のEC/NC112に向けて送信される。
上述の複数種類の音声信号には、メイン信号SG1と、第1の割込み信号SG2と、第2の割込み信号SG3とが含まれる。メイン信号SG1は、例えば音楽再生用の信号等である。第1の割込み信号SG2は、例えばナビゲーション用の音声信号である。第2の割込み信号SG3は、例えば音声アシスタント機能用の音声信号である。
<3.車載装置の作用効果>
図3は、本発明の実施形態に係る車載装置1をより端末装置2の音声アシスタント機能を利用する際の処理の流れを例示するフローチャートである。図3において、実線は車載装置1による処理を指し、破線は端末装置2による処理を指す。
ステップS1では、車載装置1の音声検出部12により、ウェイクアップワードの検出が監視される。ステップS1の処理には、マイク4から車載装置1に入力された音声信号を、音声検出部12とインターフェース部111とに向けて送信するステップが含まれる。音声検出部12は、音声検出部12に向けて送信された音声信号に基づき、ウェイクアップワードの検出を試みる。音声検出部12によって、ウェイクアップワードが検出されると(ステップS1でYes)、次のステップS2に処理が進められる。
ステップS2では、音声検出部12にてウェイクアップワードが検出された場合に、インターフェース部111を介してウェイクアップワードの検出を端末装置2に通知する処理が行われる。詳細には、音声検出部12でのウェイクアップワードの検出がトリガとなり、中継部13を介してインターフェース部111にウェイクアップワードの検出が通知される。通知を受けたインターフェース部111は、ウェイクアップワードの検出を端末装置2に通知する。ウェイクアップワードの検出を通知された端末装置2は、ステップN1の処理を行う。
ステップN1では、端末装置2が車載装置1に音声信号を要求する。端末装置2は、ウェイクアップワードを含むユーザの発話内容を示す音声信号を車載装置1に要求する。詳細には、端末装置2は、ウェイクアップワードの検出の通知を受けた時点のタイムスタンプをインターフェース部111に送信する。タイムスタンプが送信されたインターフェース部111は、ステップS3の処理を行う。
ステップS3では、ウェイアップワードの検出を通知された端末装置2からの要求により、マイク4からインターフェース部111に向けて送信された音声信号を、インターフェース部111を介して端末装置2に送信する。マイク4からインターフェース部111に向けて送信された音声信号は、音声検出部12を通ることなく、インターフェース部111に入力される。
詳細には、インターフェース部111は、マイク4から第2のEC/NC112を介して音声信号が入力される。インターフェース部111は、第2のEC/NC112を介して入力された音声信号をインターフェース部バッファ1111により一時的に保持している。インターフェース部111は、タイムスタンプに応じて適宜決められる時間に遡ってインターフェース部バッファ1111で保持された音声信号を端末装置2に適宜送信する。すなわち、インターフェース部111は、インターフェース部バッファ1111に蓄積された音声信号の、ウェイクアップワードの検出の通知(本例ではタイムスタンプ)を受けた時点から所定時間遡った時点からの音声信号を、端末装置2に伝送する。音声信号を送信された端末装置2は、ステップN2の処理を行う。
ステップN2では、音声信号を送信された端末装置2により、ウェイクアップワードが検出されて音声アシスタント機能が起動する。音声アシスタント機能が起動すると、端末装置2は、車載装置1から受け取った音声信号をサーバ装置3に送信する。サーバ装置3において、人工知能を利用して、音声の解読、および、音声内容に沿った処理が行われる。サーバ装置3は、処理結果を端末装置2に返信する。サーバ装置3から処理結果が返信されると、端末装置2は、次のステップN3の処理を行う。
ステップN3では、端末装置2は、サーバ装置3における処理結果に従った回答(音声信号)を車載装置1に送信する。回答が送信された車載装置1は、ステップS4の処理を行う。
ステップS4では、音声入出力制御部11の制御の下、端末装置2から送信された回答がスピーカ5から出力される。以上により、車載装置1を介した端末装置2の音声アシスタント機能の利用処理が完了する。
本実施形態では、マイク4から車載装置1に入力された音声信号は、音声検出部12とインターフェース部111との両方に向けて送信される。すなわち、本実施形態では、マイク4から音声検出部12を介することなく、インターフェース部111のインターフェース部バッファ1111に音声信号を入力して保持することができる。このために、端末装置2から音声情報の要求に応じて素早く音声情報の伝送を行うことができる。
これについて、図4に示す比較例を参照しながら詳細に説明する。図4は、本実施形態の車載装置1の効果を説明するための比較例を示す図である。図4には、比較例の演算処理部10Aが示されている。
マイク4から音声検出部12およびインターフェース部111に入力される音声信号は、EC/NCを通過することが好ましい。この点を考慮すると、図4に示すように、第1のEC/NC121を通過し、音声検出部バッファ123で一時的に保持された音声信号をインターフェース部111のインターフェース部バッファ1111に送信する構成とすることが考えられる。このようにすれば、第2のEC/NC112を省略した音声入出力制御部11Aを得ることができる。すなわち、EC/NCの数を増やすことを避けることができる。
しかし、図4に示す構成の場合には、マイク4から入力された音声信号がインターフェース部111に至るまでの間に音声検出部12が有する音声検出部バッファ123を経由する必要がある。音声検出部バッファ123の通過には、例えば10ms程度の時間が必要となるために、端末装置2からインターフェース部111に音声情報の送信要求があった場合に、インターフェース部バッファ1111に音声信号が届いていないという事態が生じることが懸念される。
この点、本実施形態の車載装置1においては、インターフェース部111が設けられるのと同じ音声入出力制御部11に第2のEC/NC112が設けられる構成となっているために、マイク4から入力された音声を途中でバッファを通過させることなく、インターフェース部111に入力させることができる。このために、端末装置2からインターフェース部111に音声情報の送信要求があった場合に、インターフェース部バッファ1111に音声信号が届いていないという事態の発生を起こり難くできる。すなわち、端末装置2の音声アシスタント機能の起動を短時間で行うことができる。
なお、本実施形態では、車載装置1が、端末装置2を用いたハンズフリー通話を可能とする構成になっている。この場合には、ユーザの発話音声が聞き取りやすいように、マイク4から入力される音声信号がEC/NCを通過した後に端末装置2に送られる構成とすることが好ましい。
そこで、本実施形態では、好ましい形態として、第2のEC/NC112は、端末装置2を用いたハンズフリー通話時に使用されるEC/NCを兼ねる構成としている。このため、本実施形態では、回路規模やソフトウェア規模を必要以上に増加させることなく、複数の機能を実現することが可能になっている。なお、本実施形態では、ハンズフリー通話が使用される場合には、音声アシスタント機能は利用できない構成としている。
<4.留意事項等>
本明細書中に開示されている種々の技術的特徴は、上記実施形態のほか、その技術的創作の主旨を逸脱しない範囲で種々の変更を加えることが可能である。すなわち、上記実施形態は、全ての点で例示であって、制限的なものではないと考えられるべきであり、本発明の技術的範囲は、上記実施形態の説明ではなく、特許請求の範囲によって示されるものであり、特許請求の範囲と均等の意味及び範囲内に属する全ての変更が含まれると理解されるべきである。また、本明細書中に示される複数の実施形態及び変形例は可能な範囲で適宜組み合わせて実施されてよい。
1・・・車載装置
2・・・端末装置
4・・・マイク
12・・・音声検出部
111・・・インターフェース部
112・・・第2のEC/NC
121・・・第1のEC/NC
122・・・自動音声認識部
123・・・音声検出部バッファ
1111・・・インターフェース部バッファ

Claims (8)

  1. 音声アシスタント機能を有する端末装置と接続可能な車載装置であって、
    マイクから入力される音声信号を音声認識して、その認識結果に基づいて前記車載装置の種々の機能を制御する音声検出部と、
    前記端末装置と通信するインターフェース部と、
    を備え、
    前記音声検出部は、前記音声信号を音声認識した結果、前記音声信号に、前記音声アシスタント機能を起動するための特定の言葉が含まれていることを検出したときに、前記インターフェース部を介して、前記端末装置に前記特定の言葉の検出を通知し、
    前記インターフェース部は、前記特定の言葉の検出を通知された前記端末装置からの要求によって、前記マイクから入力された音声信号を前記端末装置に伝送する、車載装置。
  2. 音声アシスタント機能を有する端末装置と接続可能な車載装置であって、
    マイクから入力される音声信号を音声認識して、前記音声信号に、前記音声アシスタント機能を起動するための特定の言葉が含まれていることを検出したときに、前記端末装置に前記特定の言葉の検出を通知し、前記特定の言葉の検出を通知された前記端末装置からの要求によって、前記マイクから入力された音声信号を前記端末装置に伝送する、演算処理部を備える、車載装置。
  3. 前記インターフェース部は、前記マイクから入力された音声信号を一時的に蓄積するインターフェース部バッファを有し、
    前記インターフェース部は、前記特定の言葉の検出の通知を受けて、前記インターフェース部バッファに蓄積された音声信号を、前記端末装置に伝送する、請求項に記載の車載装置。
  4. 前記インターフェース部は、前記インターフェース部バッファに蓄積された音声信号の、前記通知を受けた時点から所定時間遡った時点からの音声信号を、前記端末装置に伝送する、請求項3に記載の車載装置。
  5. 前記音声検出部が有する第1のエコーキャンセラおよびノイズキャンセラと異なる第2のエコーキャンセラおよびノイズキャンセラを更に備え、
    前記インターフェース部には、前記マイクからの音声信号が前記第2のエコーキャンセラおよびノイズキャンセラを介して入力される、請求項1、3、4のいずれか1項に記載の車載装置。
  6. 前記第2のエコーキャンセラおよびノイズキャンセラは、前記端末装置を用いたハンズフリー通話時に使用されるエコーキャンセラおよびノイズキャンセラを兼ねる、請求項5に記載の車載装置。
  7. 前記音声検出部は、
    前記マイクからの音声信号が入力される第1のエコーキャンセラおよびノイズキャンセラと、
    前記第1のエコーキャンセラおよびノイズキャンセラを通過した音声信号が入力され、前記特定の言葉を認識可能に設けられる自動音声認識部と、
    前記第1のエコーキャンセラおよびノイズキャンセラを通過した音声信号を一時的に保持する音声検出部バッファと、
    を有する、請求項1、3から6のいずれか1項に記載の車載装置。
  8. 音声アシスタント機能を有する端末装置と接続可能な車載装置が備える演算処理部によって実行される音声処理方法であって、
    マイクから入力される音声信号を音声認識して、前記音声信号に、前記音声アシスタント機能を起動するための特定の言葉が含まれていることを検出したときに、前記端末装置に前記特定の言葉の検出を通知し、前記特定の言葉の検出を通知された前記端末装置からの要求によって、前記マイクから入力された音声信号を前記端末装置に伝送する、音声処理方法。
JP2020058355A 2020-03-27 2020-03-27 車載装置および車載装置における音声処理方法 Active JP7465700B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2020058355A JP7465700B2 (ja) 2020-03-27 2020-03-27 車載装置および車載装置における音声処理方法
US17/190,835 US11580981B2 (en) 2020-03-27 2021-03-03 In-vehicle speech processing apparatus
CN202110299803.1A CN113450789A (zh) 2020-03-27 2021-03-19 车载装置以及车载装置中的声音处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020058355A JP7465700B2 (ja) 2020-03-27 2020-03-27 車載装置および車載装置における音声処理方法

Publications (2)

Publication Number Publication Date
JP2021158578A JP2021158578A (ja) 2021-10-07
JP7465700B2 true JP7465700B2 (ja) 2024-04-11

Family

ID=77809131

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020058355A Active JP7465700B2 (ja) 2020-03-27 2020-03-27 車載装置および車載装置における音声処理方法

Country Status (3)

Country Link
US (1) US11580981B2 (ja)
JP (1) JP7465700B2 (ja)
CN (1) CN113450789A (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008213822A (ja) 2007-02-07 2008-09-18 Denso Corp 通信型ロードノイズ制御システム、車載ロードノイズ制御装置及びサーバ
JP2016151608A (ja) 2015-02-16 2016-08-22 アルパイン株式会社 電子装置、情報端末システム、音声認識機能の起動プログラムおよび音声認識機能の起動方法

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8868430B2 (en) * 2009-01-16 2014-10-21 Sony Corporation Methods, devices, and computer program products for providing real-time language translation capabilities between communication terminals
US8996386B2 (en) * 2011-01-19 2015-03-31 Denso International America, Inc. Method and system for creating a voice recognition database for a mobile device using image processing and optical character recognition
US20140357248A1 (en) * 2013-06-03 2014-12-04 Ford Global Technologies, Llc Apparatus and System for Interacting with a Vehicle and a Device in a Vehicle
US20150199965A1 (en) * 2014-01-16 2015-07-16 CloudCar Inc. System and method for recognition and automatic correction of voice commands
EP3163457B1 (en) * 2014-06-30 2018-10-10 Clarion Co., Ltd. Information processing system, and vehicle-mounted device
JPWO2016013667A1 (ja) * 2014-07-24 2017-05-25 株式会社エー・アール・アイ エコーキャンセラ装置
WO2016054230A1 (en) * 2014-10-01 2016-04-07 XBrain, Inc. Voice and connection platform
KR101594835B1 (ko) * 2014-11-05 2016-02-17 현대자동차주식회사 음성인식 기능을 갖는 차량 및 헤드유닛과 이를 위한 음성 인식방법
CN106469040B (zh) * 2015-08-19 2019-06-21 华为终端有限公司 通信方法、服务器及设备
US9963096B2 (en) * 2015-11-16 2018-05-08 Continental Automotive Systems, Inc. Vehicle infotainment and connectivity system
TWI584270B (zh) * 2016-06-15 2017-05-21 瑞昱半導體股份有限公司 語音控制系統及其方法
CN107786714B (zh) * 2016-08-31 2019-11-05 腾讯科技(深圳)有限公司 基于车载多媒体设备的语音控制方法、装置及系统
KR102332826B1 (ko) * 2017-05-30 2021-11-30 현대자동차주식회사 차량용 음성 인식 장치, 상기 차량용 음성 인식 장치를 포함하는 차량, 차량용 음성 인식 시스템 및 상기 차량용 음성 인식 장치의 제어 방법
CN108831448B (zh) * 2018-03-22 2021-03-02 北京小米移动软件有限公司 语音控制智能设备的方法、装置及存储介质
JP7186375B2 (ja) 2018-03-29 2022-12-09 パナソニックIpマネジメント株式会社 音声処理装置、音声処理方法および音声処理システム
CN108538305A (zh) 2018-04-20 2018-09-14 百度在线网络技术(北京)有限公司 语音识别方法、装置、设备及计算机可读存储介质
CN110654331A (zh) * 2018-06-29 2020-01-07 上海博泰悦臻网络技术服务有限公司 车辆、车机设备及其车载助手交互方法
CN109545215A (zh) * 2018-12-27 2019-03-29 广州亿宏信息科技有限公司 一种车载智能设备的唤醒方法及唤醒装置
US10728656B1 (en) * 2019-01-07 2020-07-28 Kikago Limited Audio device and audio processing method
CN110189755A (zh) * 2019-06-24 2019-08-30 深圳市小魔信息技术有限公司 一种具有唤醒功能的手机壳和唤醒方法
CN110727821A (zh) * 2019-10-12 2020-01-24 深圳海翼智新科技有限公司 防止设备被误唤醒的方法、装置、系统和计算机存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008213822A (ja) 2007-02-07 2008-09-18 Denso Corp 通信型ロードノイズ制御システム、車載ロードノイズ制御装置及びサーバ
JP2016151608A (ja) 2015-02-16 2016-08-22 アルパイン株式会社 電子装置、情報端末システム、音声認識機能の起動プログラムおよび音声認識機能の起動方法

Also Published As

Publication number Publication date
JP2021158578A (ja) 2021-10-07
US11580981B2 (en) 2023-02-14
US20210304752A1 (en) 2021-09-30
CN113450789A (zh) 2021-09-28

Similar Documents

Publication Publication Date Title
US11676601B2 (en) Voice assistant tracking and activation
CN107004411B (zh) 话音应用架构
US20050216271A1 (en) Speech dialogue system for controlling an electronic device
JP2012128440A (ja) 音声対話装置
US11043222B1 (en) Audio encryption
JP2016090681A (ja) 車両用音声対話装置
JP2013223031A (ja) 車両用音響出力制御装置
JP6459330B2 (ja) 音声認識装置、音声認識方法、及び音声認識プログラム
US10629199B1 (en) Architectures and topologies for vehicle-based, voice-controlled devices
JP7465700B2 (ja) 車載装置および車載装置における音声処理方法
JP6673243B2 (ja) 音声認識装置
JP2014062944A (ja) 情報処理装置
JP2018116206A (ja) 音声認識装置、音声認識方法及び音声認識システム
JP2019139146A (ja) 音声認識システム、及び、音声認識方法
JP7434016B2 (ja) 起動語登録の支援方法、支援装置、音声認識装置、およびプログラム
JP6539940B2 (ja) 音声認識装置及び音声認識プログラム
KR20180066513A (ko) 자동 통역 방법 및 장치, 및 기계 번역 방법
JP2014202800A (ja) 音声認識制御装置
US20150039312A1 (en) Controlling speech dialog using an additional sensor
JP2021117296A (ja) エージェントシステム、端末装置およびエージェントプログラム
CN111369972A (zh) 引导声音输出控制系统及引导声音输出控制方法
JP7133149B2 (ja) 自動運転装置、カーナビゲーション装置及び運転支援システム
WO2019175960A1 (ja) 音声処理装置および音声処理方法
US20240075944A1 (en) Localized voice recognition assistant
JP7336928B2 (ja) 情報処理装置、情報処理システム、情報処理方法、及び情報処理プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20221228

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20231221

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20231226

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240219

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240305

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240401

R150 Certificate of patent or registration of utility model

Ref document number: 7465700

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150