JP6791356B2 - 音声端末、音声コマンド生成システム、及び音声コマンド生成システムの制御方法 - Google Patents
音声端末、音声コマンド生成システム、及び音声コマンド生成システムの制御方法 Download PDFInfo
- Publication number
- JP6791356B2 JP6791356B2 JP2019506918A JP2019506918A JP6791356B2 JP 6791356 B2 JP6791356 B2 JP 6791356B2 JP 2019506918 A JP2019506918 A JP 2019506918A JP 2019506918 A JP2019506918 A JP 2019506918A JP 6791356 B2 JP6791356 B2 JP 6791356B2
- Authority
- JP
- Japan
- Prior art keywords
- voice
- sound data
- unit
- output
- delay
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/56—Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
- H04M3/568—Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities audio processing specific to telephonic conferencing, e.g. spatial distribution, mixing of participants
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/027—Syllables being the recognition units
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2203/00—Aspects of automatic or semi-automatic exchanges
- H04M2203/60—Aspects of automatic or semi-automatic exchanges related to security aspects in telephonic communication systems
- H04M2203/6009—Personal information, e.g. profiles or personal directories being only provided to authorised persons
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Telephonic Communication Services (AREA)
- Telephone Function (AREA)
Description
本開示の第1の実施形態について、図面を用いて以下に説明する。
図1は、本実施形態に係る音声コマンド生成システム300の概念図である。音声コマンド生成システム300は、図1に示すように、通信機器190に接続された第1の音声端末100と、通信機器290に接続された第2の音声端末200とを含む。第1の音声端末100と第2の音声端末200は、異なる会議室などに配置されている。第1の音声端末100と第2の音声端末200は、ネットワーク400を介して各種信号の送受信を行う。
ネットワーク400は、Wi−Fi(Wireless-Fidelity、登録商標)などの無線LAN(Local Area Network)、有線LAN、WAN(Wide Area Network)などを含み、第1の音声端末100と第2の音声端末200との間の信号伝達経路として利用される。
第1の音声端末100は、第1の音声端末100が配置された会議室にいる発話者の音声を収音し、アナログ音データを生成する収音部110を有する。収音部110により生成されたアナログ音データは、ADコンバーター120に送信され、ADコンバーター120にて、デジタル音データに変換される。デジタル音データは、第1の音声端末100に含まれる、音声認識部130、音声制御部140、及び音声判定部150に送信される。なお、第1の音声端末100が収音部110を含まず、第1の音声端末100の外部に配置された収音部110と接続される構成としても構わない。
音声認識部130は、ADコンバーター120から送信されたデジタル音データに含まれたトリガーワードの少なくとも最初の一部を受信すると、音声制御部140に対して、デジタル音データの出力を遅延させることを指示するディレイ信号を送信する。トリガーワードとは、音データからコマンド信号を生成させることを指示するキーワードである。なお、トリガーワードの最初の一部とは、トリガーワードの最初の音素、音節、単語等である。本実施形態においては、音声認識部130は、ADコンバーター120から送信されたデジタル音データに含まれたトリガーワードの最初の音素を受信すると、音声制御部140に対して、デジタル音データの出力を遅延させることを指示するディレイ信号を送信する例を説明する。
音声制御部140は、音声認識部130から送信されたディレイ信号に応じて、ADコンバーター120より送信されたデジタル音データの出力を遅らせるディレイ機能を有する。また、音声制御部140は、ディレイを行った際、遅らせた分のパケット数に関するディレイ情報を音声判定部150に送信する。更に、音声制御部140は、音声判定部150から送信された無音圧縮指示信号に応じて、無音声部分のディレイパケットを削除し、後述する無音声圧縮を行う。また、音声制御部140は、削除したディレイパケットに関するディレイ情報を音声判定部150に送信する。音声制御部140は、後述するコマンド音ミュート部160とともに、出力制御部146を構成する。
音声判定部150は、ADコンバーター120より、人の音声に関するデジタル音データが送信されてきているか否かを判定する機能を有する。
コマンド音ミュート部160は、音声認識部130から送信されてきたミュート信号に応じて、音声制御部140から送信されてきたデジタル音データの出力をミュート状態に切り替える。また、コマンド音ミュート部160は、音声判定部150から送信されてきたミュート解除信号に応じて、音声制御部140から送信されてきたデジタル音データの出力をオン状態に切り替える。
通信機器190は、コマンド音ミュート部160がデジタル音データを出力する場合、ネットワーク400を介して、第2の音声端末200に接続された通信機器290にデジタル音データを送信する。また、第2の音声端末200から送信されたデジタル音データを、ネットワーク400を介して受信し、第1の音声端末100内のDAコンバーター180に送信する。
DAコンバーター180は、第2の音声端末200から送信されたデジタル音データをアナログ音データに変換する。アナログ音データは、スピーカー186より出力され、第1の音声端末100が配置された会議室にいる参加者が、第2の音声端末200が配置された会議室にいる発話者の音声を聞くことができる。
各種制御部170は、音声認識部130から送信されてきたコマンド信号を用いて、スピーカー186の音量の調整や、収音部110における音声入力の受付可否の切り替えを行う等、第1の音声端末100に対する各種パラメーター制御を行う。
第2の音声端末200は、第2の音声端末200が配置された会議室にいる発話者の音声を収音する収音部210を有する。収音部210により収音された発話者の音データは、ADコンバーター220に送信され、ADコンバーター220にて、デジタル音データに変換される。デジタル音データは、第2の音声端末200に接続された通信機器290によって、ネットワーク400を介して第1の音声端末100に送信される。なお、第2の音声端末200が収音部210を含まず、第2の音声端末200の外部に配置された収音部210と接続される構成としても構わない。
図2は、本実施形態に係る第1の音声端末100の制御方法を示すフローチャートである。図3は、本実施形態に係る第1の音声端末100の無音声圧縮方法を示すフローチャートである。以下、図2、3を用いて、本実施形態に係る第1の音声端末100の制御方法について説明する。
図2に示すように、まず収音ステップS101が行われる。この収音ステップS101においては、第1の音声端末100が配置された会議室にいる発話者の音声を、第1の音声端末100に含まれる収音部110が収音し、アナログ音データを生成することにより行われる。
次に、デジタル音データ入力ステップS102が行われる。デジタル音データ入力ステップS102において、収音部110により生成されたアナログ音データは、ADコンバーター120に送信され、ADコンバーター120にて、デジタル音データに変換される。
次に、トリガーワードの最初の音素の有無判定ステップS103が行われる。トリガーワードとは、音声認識部130に、デジタル音データからコマンド信号を生成させるためのキーワードであり、例えば、「OK,(機器名)」や、「Hey,(機器名)」などが挙げられる。トリガーワードが「OK,(機器名)」(音素の並び:OW K EY)の場合は「OW」が、トリガーワードが「Hey,(機器名)」(音素の並び:HH EY)の場合「HH」が、トリガーワードの最初の音素となる。
次に、ディレイステップS104が行われる。音声制御部140は、トリガーワードの最初の音素を認識した音声認識部130から送信されたデジタル音データの出力を遅延させることを指示するディレイ信号を受信する。このディレイ信号を受信した音声制御部140は、ADコンバーター120から受信したデジタル音データの出力を遅延させた上で、コマンド音ミュート部160にデジタル音データを出力する。即ち、音声認識部130から送信されたディレイ信号により、出力制御部146内のデジタル音データの伝達が遅延される。
上述したトリガーワードの最初の音素の有無判定ステップS103において、音声認識部130が、トリガーワードの最初の音素がデジタル音データに含まれていると判断したとしても、最初の音素だけがトリガーワードと共通した、トリガーワード以外の音声が発話者から発せられている可能性がある。従って、このトリガーワードの有無判定ステップS105においては、音声認識部130が、トリガーワードの最初の音素のみならず、実際にトリガーワードが発せられたか否かを判定する。
ミュートステップS106においては、コマンド音ミュート部160が、音声認識部130から、デジタル音データの出力のミュート状態にさせる制御信号であるミュート信号を受信する。このミュート信号を受信したコマンド音ミュート部160は、音声制御部140から送信されてきたデジタル音データの出力をミュート状態とする。ミュート状態とする方法としては適宜選択すればよく、例えば出力をオフ状態にする、又はコマンド音ミュート部160にキャッシュされているデジタル音データを削除するなどを行うことができる。
蓄積ディレイ削除ステップS107においては、音声制御部140が、デジタル音データ出力のディレイを停止し、ミュート状態となっているコマンド音ミュート部160に対して、デジタル音データの出力を開始する。更に、音声制御部140が、ディレイステップS104からディレイさせていたデジタル音データをすべて削除する。
次に、制御フローは、コマンド音声認識ステップS108に移行する。
コマンド音声認識完了判定ステップS109においては、音声認識部130又は音声判定部150が、発話者からの音声コマンドの入力が完了又は途中で終了したか否かを判定する。
第1の音声端末制御ステップS110においては、コマンド信号を受信した各種制御部170が、コマンド信号に応じた処理を行う。
ミュート解除ステップにおいては、音声判定部150又は音声認識部130が、ミュートステップS106よりミュート状態にある、コマンド音ミュート部160のミュートを解除するミュート解除信号を送信する。これは、発話者からの音声コマンドの入力が終了したと判断した音声判定部150又は音声認識部130が、コマンド音ミュート部160のミュートを解除することにより、その後の発話者からの音声に関するデジタル音データを、第2の音声端末200に向けて出力することができるようになる。
次に、ディレイ停止ステップS112について説明する。上述したトリガーワードの有無判定ステップS105において、音声認識部130が、デジタル音データの中からトリガーワードを認識しなかった場合、音声認識部130は、音声制御部140に対して、ディレイを停止することを指示するディレイ停止信号を送信する。
次に、音声制御部140は、ディレイパケット数送信ステップS113を実行する。このディレイパケット数送信ステップS113においては、上述したディレイ停止ステップS112においてディレイを停止した音声制御部140が、ディレイステップS104からディレイ停止ステップS112までのディレイパケット数Dpnに関するディレイ情報を音声判定部150に送信する。
次に、総ディレイパケット更新ステップS114において、ディレイパケット数Dpnに関するディレイ情報を受信した音声判定部150は、総ディレイパケット数DpにDpnを加算し、総ディレイパケット数Dpを更新する。
音声制御部140から出力されたデジタル音データは、コマンド音ミュート部160を通過し、通信機器190に送信される。通信機器190は、ネットワーク400を介して、通信機器290にデジタル音データを送信する。通信機器290は、第1の音声端末100から送信されたデジタル音データを、ネットワーク400を介して受信し、第2の音声端末200内のDAコンバーター280に送信する。DAコンバーター280は、第1の音声端末100から送信されたデジタル音データをアナログ音データに変換する。アナログ音データは、スピーカー286より出力され、第2の音声端末200が配置された会議室にいる参加者が、第1の音声端末100が配置された会議室にいる発話者の音声を聞くことができる。
以下、図3を用いて、本開示の第1の音声端末100における無音声圧縮方法について説明する。この無音声圧縮フローは、図2に示したデジタル音データ入力ステップS102とトリガーワードの最初の音素の有無判定ステップS103との間に含めることができる。
デジタル音データ入力ステップS102の後に、音声判定部150は、総ディレイパケット数判定ステップS201を行う。
音声有無判定ステップS202においては、音声判定部150が、デジタル音データについて周波数分析を行うことにより、単なる雑音と人の声とを判別し、人の音声が発せられたか否かを判定する。具体例としては、音声判定部150は、デジタル音データを時間領域から周波数領域に変換し、人の声の周波数として適切な所定の範囲内(例えば0.2kHz〜4kHz)に含まれるデジタル音データを人の声と判断し、所定の範囲に含まれないデジタル音データは雑音であると判断する。
無音声部分パケット削除ステップS203において、音声判定部150は、音声制御部140に無音声圧縮を指示する無音圧縮指示信号を送信する。この無音圧縮指示信号を受信した音声制御部140は、この無音圧縮指示信号に応じて、無音声部分のパケットを削除する。無音性部分のパケットを削除した音声制御部140は、音声判定部150に、削除したディレイパケット数Dpmに関するディレイ情報を送信する。
音声制御部140から、削除されたディレイパケット数Dpmに関するディレイ情報を受け取った音声判定部150は、総ディレイパケット数更新ステップS204を行う。総ディレイパケット数更新ステップS204において、音声判定部150は、総ディレイパケット数DpからDpmを減算し、総ディレイパケット数Dpを更新する。
本開示の第2の実施形態について、図面を用いて以下に説明する。なお、第1の実施形態と同様の構成については、同じ符号を付して、その説明を省略する。
図4は、本実施形態に係る音声コマンド生成システム300Aの概念図である。音声コマンド生成システム300Aに含まれる第1の音声端末100Aは、音声認識部130の代わりに、トリガーワード判定部510、ネットワーク通信部520を含み、音声コマンド生成システム300Aは、サーバー530を備えている。また、ADコンバーター120から出力されるデジタル音データは、音声制御部140、音声判定部150、トリガーワード判定部510、及びネットワーク通信部520に送信される。
トリガーワード判定部510は、ADコンバーター120から送信されたデジタル音データに含まれたトリガーワードの少なくとも最初の一部を受信すると、音声制御部140に対して、デジタル音データの出力を遅延させることを指示するディレイ信号を送信する。
ネットワーク通信部520は、ADコンバーター120から受信したコマンド音声に関するデジタル音データ(トリガーワード判定部510が音声認識処理を行う場合は、デジタル音データから生成されたテキストデータ)を、第1の音声端末100Aの外部に設けられたサーバー530に送信する。
サーバー530は、クラウドサーバー、社内サーバーなどであり、デジタル音データからコマンド信号を生成するためのコマンド信号生成用データを記憶する。
本実施形態における第1の音声端末100Aの制御方法が、第1の実施形態と異なるのは、図2に示したコマンド音声認識ステップS108の部分である。それ以外のステップについては、図2、図3を用いて第1の実施形態において上述した通りであるため、その説明を割愛する。
トリガーワード判定部510は、ADコンバーター120から受信したデジタル音声データの中にトリガーワードが含まれていると判断すると、ネットワーク通信部520へのデジタル音データ送信ステップS301を行う。このステップにおいて、トリガーワード判定部510は、ネットワーク通信部520に対し、トリガーワードの後に発せられたコマンド音声に関するデジタル音データをサーバー530へ送信することを指示する制御信号を送信する。なお、トリガーワード判定部510が音声認識を行う場合は、このステップS301において、トリガーワード判定部510が、デジタル音データから生成したテキストデータをネットワーク通信部520へ送信する。
次に、ネットワーク通信部520が、サーバーへのデジタル音データ送信ステップS302を行う。ネットワーク通信部520は、ネットワーク400を介して、サーバー530にコマンド音声に関するデジタル音データを送信する。
ネットワーク通信部520から、コマンド音声に関するデジタル音データを受信したサーバー530は、コマンド信号生成ステップS303を行う。
デジタル音データから生成されたテキストデータを用いて、コマンド信号を生成したサーバー530は、コマンド信号を、ネットワーク400を介してネットワーク通信部520に送信する。
ネットワーク400を介してコマンド信号を受信したネットワーク通信部520は、各種制御部170へ、コマンド信号を送信する。
Claims (19)
- 音声の入力を受け付け、音データを生成する収音部と、
音データを取得し、前記音データを出力する出力制御部と、
前記音データの伝達を遅延させた状態で、前記音データについての音声認識を行い、前記音声認識の結果に応じて、前記出力制御部の出力を制限する音声認識部と、
を含み、
前記出力制御部は、
前記収音部から出力された前記音データを取得し、出力する音声制御部と、
前記音声制御部から出力された前記音データを取得し、通信機器に前記音データを出力するミュート部と、
を含み、
前記音声認識部は、
前記音声制御部に、前記音データの出力を遅延させるディレイ信号を送信し、
前記ミュート部に、前記音データの出力をミュート状態にするミュート信号を送信する、音声端末。 - 前記音声認識部は、前記音声認識によりコマンド信号を生成する、
請求項1に記載の音声端末。 - 前記音声認識部は、前記音データに含まれるトリガーワードの少なくとも最初の一部を認識した場合に前記ディレイ信号を送信し、前記音データに含まれる前記トリガーワードを認識した場合に、前記ミュート信号を送信する、
請求項1に記載の音声端末。 - 前記トリガーワードの最初の一部は、前記トリガーワードの最初の音素、音節、及び単語の内の少なくともいずれか一つである、
請求項3に記載の音声端末。 - 前記音データを取得し、前記音データに人の音声が含まれていない無音声状態であるか否かを判断し、前記無音声状態であると判断した場合には、前記音声制御部に無音声圧縮を指示する制御信号を送信する音声判定部を更に備えた、
請求項1乃至4のいずれか一つに記載の音声端末。 - 前記音声制御部は、前記ディレイ信号を受信すると、前記音データの出力を遅延させ、前記音データのディレイパケットに関するディレイ情報を前記音声判定部に送信する、
請求項5に記載の音声端末。 - 前記無音声圧縮指示信号を受信した前記音声制御部が、無音声部分の前記ディレイパケットを削除する、
請求項6に記載の音声端末。 - 前記音声制御部が、削除した前記ディレイパケットに関する前記ディレイ情報を前記音声判定部に送信する、
請求項7に記載の音声端末。 - 前記音声判定部は、前記ディレイ情報を受信し、蓄積された前記ディレイパケットの数を更新する、
請求項6又は8に記載の音声端末。 - 前記音声判定部は、蓄積された前記ディレイパケットの数が0の場合には、前記音声制御部に無音声圧縮を指示する前記制御信号を送信しない、
請求項9に記載の音声端末。 - 前記音声判定部は、前記無音声状態が一定時間以上経過した場合には、前記ミュート部に対して出力をオン状態にするミュート解除信号を送信する、
請求項5乃至10のいずれか一つに記載の音声端末。 - 前記音声判定部は、前記音データについて周波数分析を行うことにより、前記音データに人の音声が含まれているか否かを判断する、
請求項5乃至11のいずれか一つに記載の音声端末。 - 前記音声認識部が、前記トリガーワードの一部を認識して前記ディレイ信号を送信した後に、前記トリガーワードを認識しなかった場合には、前記音声制御部に前記出力の遅延を停止させるディレイ停止信号を送信する、
請求項3に記載の音声端末。 - 前記音声認識部は、前記音データから前記コマンド信号を生成するためのコマンド信号生成用データを記憶する、
請求項2に記載の音声端末。 - 前記コマンド信号生成用データは、複数の音素に関するデータと、前記コマンド信号と複数の前記音素の並びとを対応付けるデータとを含む、
請求項14に記載の音声端末。 - 前記音声認識部が、前記コマンド信号を各種制御部に送信する、
請求項2に記載の音声端末。 - 音声の入力を受け付け、音データを生成する収音部と、
音データを取得し、前記音データを出力する出力制御部と、
前記音データの伝達を遅延させた状態で、前記音データにトリガーワードが含まれているか否かを判断し、前記判断の結果に応じて、前記出力制御部の出力を制限するトリガーワード判定部と、
を含み、
前記出力制御部は、
前記収音部から出力された前記音データを取得し、出力する音声制御部と、
前記音声制御部から出力された前記音データを取得し、通信機器に前記音データを出力するミュート部と、
を含み、
前記トリガーワード判定部は、
前記音声制御部に、前記音データの出力を遅延させるディレイ信号を送信し、
前記ミュート部に、前記音データの出力をミュート状態にするミュート信号を送信する、音声コマンド生成システム。 - 前記音声コマンド生成システムは、音声会議システムである、
請求項17に記載の音声コマンド生成システム。 - 音データを取得し、前記音データを出力し、
前記音データの伝達を遅延させ、
前記音データにトリガーワードが含まれているか否かを判断し、
前記判断の結果に応じて、前記音データの出力をミュート状態にすることで前記出力を制限する、
音声コマンド生成システムの制御方法。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2017/012167 WO2018173293A1 (ja) | 2017-03-24 | 2017-03-24 | 音声端末、音声コマンド生成システム、及び音声コマンド生成システムの制御方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2018173293A1 JPWO2018173293A1 (ja) | 2019-11-07 |
JP6791356B2 true JP6791356B2 (ja) | 2020-11-25 |
Family
ID=63586290
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019506918A Active JP6791356B2 (ja) | 2017-03-24 | 2017-03-24 | 音声端末、音声コマンド生成システム、及び音声コマンド生成システムの制御方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11302318B2 (ja) |
JP (1) | JP6791356B2 (ja) |
WO (1) | WO2018173293A1 (ja) |
Families Citing this family (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10095470B2 (en) | 2016-02-22 | 2018-10-09 | Sonos, Inc. | Audio response playback |
US10264030B2 (en) | 2016-02-22 | 2019-04-16 | Sonos, Inc. | Networked microphone device control |
US10097919B2 (en) | 2016-02-22 | 2018-10-09 | Sonos, Inc. | Music service selection |
US10115400B2 (en) | 2016-08-05 | 2018-10-30 | Sonos, Inc. | Multiple voice services |
US10475449B2 (en) | 2017-08-07 | 2019-11-12 | Sonos, Inc. | Wake-word detection suppression |
US10048930B1 (en) | 2017-09-08 | 2018-08-14 | Sonos, Inc. | Dynamic computation of system response volume |
US10482868B2 (en) | 2017-09-28 | 2019-11-19 | Sonos, Inc. | Multi-channel acoustic echo cancellation |
US10466962B2 (en) | 2017-09-29 | 2019-11-05 | Sonos, Inc. | Media playback system with voice assistance |
US11175880B2 (en) | 2018-05-10 | 2021-11-16 | Sonos, Inc. | Systems and methods for voice-assisted media content selection |
US10959029B2 (en) | 2018-05-25 | 2021-03-23 | Sonos, Inc. | Determining and adapting to changes in microphone performance of playback devices |
US10726838B2 (en) * | 2018-06-14 | 2020-07-28 | Disney Enterprises, Inc. | System and method of generating effects during live recitations of stories |
US11024331B2 (en) | 2018-09-21 | 2021-06-01 | Sonos, Inc. | Voice detection optimization using sound metadata |
US10811015B2 (en) * | 2018-09-25 | 2020-10-20 | Sonos, Inc. | Voice detection optimization based on selected voice assistant service |
US11100923B2 (en) | 2018-09-28 | 2021-08-24 | Sonos, Inc. | Systems and methods for selective wake word detection using neural network models |
US11899519B2 (en) | 2018-10-23 | 2024-02-13 | Sonos, Inc. | Multiple stage network microphone device with reduced power consumption and processing load |
US11183183B2 (en) | 2018-12-07 | 2021-11-23 | Sonos, Inc. | Systems and methods of operating media playback systems having multiple voice assistant services |
US11132989B2 (en) | 2018-12-13 | 2021-09-28 | Sonos, Inc. | Networked microphone devices, systems, and methods of localized arbitration |
JP2020144209A (ja) * | 2019-03-06 | 2020-09-10 | シャープ株式会社 | 音声処理装置、会議システム、及び音声処理方法 |
US11120794B2 (en) | 2019-05-03 | 2021-09-14 | Sonos, Inc. | Voice assistant persistence across multiple network microphone devices |
CN110136715B (zh) | 2019-05-16 | 2021-04-06 | 北京百度网讯科技有限公司 | 语音识别方法和装置 |
US11189286B2 (en) | 2019-10-22 | 2021-11-30 | Sonos, Inc. | VAS toggle based on device orientation |
US11200900B2 (en) | 2019-12-20 | 2021-12-14 | Sonos, Inc. | Offline voice control |
US11562740B2 (en) | 2020-01-07 | 2023-01-24 | Sonos, Inc. | Voice verification for media playback |
US11308958B2 (en) | 2020-02-07 | 2022-04-19 | Sonos, Inc. | Localized wakeword verification |
US11482224B2 (en) | 2020-05-20 | 2022-10-25 | Sonos, Inc. | Command keywords with input detection windowing |
US11756568B2 (en) * | 2020-07-23 | 2023-09-12 | Rovi Guides, Inc. | Systems and methods for improved audio-video conferences |
US11626126B2 (en) | 2020-07-23 | 2023-04-11 | Rovi Guides, Inc. | Systems and methods for improved audio-video conferences |
US11521640B2 (en) | 2020-07-23 | 2022-12-06 | Rovi Guides, Inc. | Systems and methods for improved audio-video conferences |
WO2023112114A1 (ja) * | 2021-12-14 | 2023-06-22 | パイオニア株式会社 | 通信システム、情報処理装置、情報処理方法、プログラム及び記録媒体 |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008028885A (ja) | 2006-07-25 | 2008-02-07 | Matsushita Electric Ind Co Ltd | 音声会議システムにおける送話ミュート装置、送話ミュート方法および記録媒体 |
JP5476760B2 (ja) * | 2009-03-26 | 2014-04-23 | ヤマハ株式会社 | コマンド認識装置 |
JP5887984B2 (ja) | 2012-02-16 | 2016-03-16 | 株式会社デンソー | 車載ハンズフリー装置 |
US9368114B2 (en) * | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
KR102057795B1 (ko) * | 2013-03-15 | 2019-12-19 | 애플 인크. | 콘텍스트-민감성 방해 처리 |
JP2015011170A (ja) | 2013-06-28 | 2015-01-19 | 株式会社ATR−Trek | ローカルな音声認識を行なう音声認識クライアント装置 |
JP6309382B2 (ja) * | 2013-10-17 | 2018-04-11 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America | コードレス電話機器の制御方法、コードレス電話機器の子機及びコードレス電話機器 |
US9280314B2 (en) | 2013-10-17 | 2016-03-08 | Panasonic Intellectual Property Corporation Of America | Method for controlling cordless telephone device, handset of cordless telephone device, and cordless telephone device |
US9413891B2 (en) * | 2014-01-08 | 2016-08-09 | Callminer, Inc. | Real-time conversational analytics facility |
JP6580362B2 (ja) | 2014-04-24 | 2019-09-25 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America | 会議決定方法およびサーバ装置 |
US10051202B2 (en) * | 2015-02-24 | 2018-08-14 | Newtek, Inc. | Method and apparatus for adaptively mixing video source signals |
JP6227209B2 (ja) * | 2015-09-09 | 2017-11-08 | 三菱電機株式会社 | 車載用音声認識装置および車載機器 |
-
2017
- 2017-03-24 WO PCT/JP2017/012167 patent/WO2018173293A1/ja active Application Filing
- 2017-03-24 JP JP2019506918A patent/JP6791356B2/ja active Active
-
2019
- 2019-08-29 US US16/555,313 patent/US11302318B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JPWO2018173293A1 (ja) | 2019-11-07 |
WO2018173293A1 (ja) | 2018-09-27 |
US20190392832A1 (en) | 2019-12-26 |
US11302318B2 (en) | 2022-04-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6791356B2 (ja) | 音声端末、音声コマンド生成システム、及び音声コマンド生成システムの制御方法 | |
NL2021308B1 (en) | Methods for a voice processing system | |
US9437216B2 (en) | Method of transmitting data in a communication system | |
JP5526134B2 (ja) | 周辺電話技術システムにおける会話検出 | |
JPWO2020017518A1 (ja) | 音声信号処理装置 | |
US10848855B2 (en) | Method, electronic device and recording medium for compensating in-ear audio signal | |
CN112130801A (zh) | 音响装置及音响处理方法 | |
JP2019191490A (ja) | 音声対話端末、および音声対話端末制御方法 | |
JP2021107873A5 (ja) | ||
JP2008177745A (ja) | 放収音システム | |
JP2008219240A (ja) | 放収音システム | |
EP4354841A1 (en) | Conference calls | |
JP6922551B2 (ja) | 音声処理装置、音声処理プログラム、及び音声処理方法 | |
JP7293863B2 (ja) | 音声処理装置、音声処理方法およびプログラム | |
US20120134505A1 (en) | Method for the operation of a hearing device and hearing device with a lengthening of fricatives | |
JPH07245748A (ja) | 音響信号を用いた通信装置 | |
US20230005465A1 (en) | Voice communication between a speaker and a recipient over a communication network | |
KR102142338B1 (ko) | 인공지능 통신 장치 및 그 동작 방법 | |
JP5210788B2 (ja) | 音声信号通信システム、音声合成装置、音声合成処理方法、音声合成処理プログラム、並びに該プログラムを格納した記録媒体 | |
JP2005229422A (ja) | 音声処理装置 | |
JP2008294600A (ja) | 放収音装置、および放収音システム | |
JP2023013073A (ja) | 通信端末、判定方法及びプログラム | |
JP2004207892A (ja) | 通信システム及び通信端末並びにコンピュータ・ソフトウエア | |
JP2008141560A (ja) | ネットワーク機器 | |
JP4127274B2 (ja) | 電話音声認識システム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190325 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190325 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200421 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200529 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200818 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200825 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20201006 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20201019 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 6791356 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |