JP2018519552A

JP2018519552A - ロボット自身音源を解消するシステム

Info

Publication number: JP2018519552A
Application number: JP2017567760A
Authority: JP
Inventors: リウ、シン; ガオ、ペン; シ、ジアキ; ファン、リチュン
Original assignee: ユウトウ・テクノロジー（ハンジョウ）・カンパニー・リミテッド
Priority date: 2015-06-30
Filing date: 2016-06-14
Publication date: 2018-07-19
Also published as: CN106328165A; TWI588821B; US10482898B2; EP3319088A1; TW201701272A; EP3319088A4; WO2017000774A1; US20190115042A1

Abstract

本発明はロボット自身音源を解消するシステムを公開し、そのロボット自身音源を解消するシステムにおいて、左右サウンドチャンネルが混合されている数字信号を収集して出力するピックアップユニットと；接収したロボット自身音源の参考信号と左右サウンドチャンネルが混合されている数字信号とを混合音声信号に混合し生成して出力するサウンドカード駆動ユニットと；混合音声信号を左右サウンドチャンネルが混合されている数字信号と参考信号とに分離して、且つ、左右サウンドチャンネルが混合されている数字信号に干渉信号があるかどうかを判断し、放送信号量を取得して出力する信号分離ユニットと；参考信号と放送信号量と左右サウンドチャンネルが混合されている数字信号とを接収して、且つ、放送信号量によって、左右サウンドチャンネルが混合されている数字信号における干渉信号を解消して、出力する音源解消ユニットと；左右サウンドチャンネルが混合されている数字信号を識別する識別ユニットと；を含む。本発明により、ロボット自身の放送した音楽における干渉信号を相殺や抑制でき、ロボットの音声認識率を高めることになる。

Description

本発明はオーディオ識別に関し、特に、ロボットシステムにおける自身音源を解消するシステムに関するものである。

コンピューター技術、パターン識別などの技術の発展とともに、異なる場合に適応する音声識別システムが相次いで開発されてきて、音声認識と処理技術のその強い技術の優勢がますます顕著になってくる。近年、音声識別はコンピューター、情報処理、通信と電子システム、自動制御などの分野での応用がますます広くなってくる。人々は音声通信過程で周囲環境や伝送媒を介して導入された騒音や、通信設備内部に存在する騒音や、他のスピーカーからの干渉などを受けることは必然的に避けられないので、最終的接収者は接収した音声が純粋な原始音声信号ではなくて、騒音公害を受けたノイズある音声信号であることになる。既存のロボットシステムに、ロボットのHIFI（High-Fidelity、ハイファイ）サウンドシステムが音楽を放送する時、発生した音楽信号はロボットマイクロホンによりピックアップされた音声信号に混じられることがあり、自動音声識別システムに入った音声信号対騒音比が減少し、ロボット自動音声を識別する（Automatic Speech Recognition、ASR）システムの認識率に一定の干渉をもたらし、認識率を低下させ、ロボット音声識別のユーザー体験に影響を及ぼす。

発明の内容

既存の音声識別及び処理技術に存在する上述した問題に対して、本発明はロボット自身の放送した干渉信号を相殺や抑制でき、音声認識率を高めることができることを目的としてロボット自身音源を解消するシステムを提供する。

具体的な技術案は以下通りであり、すなわち：
本発明のロボット自身音源解消システムは、
左右サウンドチャンネルが混合されている数字信号を収集する及び出力するピックアップユニットと；
前記ピックアップユニットに連接され、接収したロボット自身音源の参考信号及び左右サウンドチャンネルが混合されている前記数字信号を混合して音声信号を生成して、出力するサウンドカード駆動ユニットと；
前記サウンドカード駆動ユニットに連接され、混合音声信号を左右サウンドチャンネルが混合されている前記数字信号と前記参考信号に分離して、それに、左右サウンドチャンネル信号が混合されている前記数字信号における干渉信号が存在するかどうかを判断して、放送信号量を取得して出力する信号分離ユニットと；
前記信号分離ユニットに連接され、前記参考信号と前記放送信号量と左右サウンドチャンネルが混合されている前記数字信号とを接収して、前記放送信号量によって、左右サウンドチャンネルが混合されている前記数字信号における干渉信号を解消して、出力する音源解消ユニットと；
前記音源解消ユニットに連接され、前記左右サウンドチャンネルが混合されている前記数字信号を識別する識別ユニットと；
を含む。

好ましくは、前記音源解消ユニットにおいて、前記参考信号と前記放送信号量と左右サウンドチャンネルが混合されて前記数字信号とを接収し、前記放送信号量によって、左右サウンドチャンネルが混合される前記数字信号における干渉信号を解消し、左サウンドチャンネルの数字信号を出力する左サウンドチャンネル音源を解消するモジュールを含む。

好ましくは、前記音源解消ユニットにおいて、前記参考信号と前記放送信号量と左右サウンドチャンネルが混合される前記数字信号とを接収し、前記放送信号量によって、左右サウンドチャンネルが混合される前記数字信号における干渉信号を解消し、右サウンドチャンネルの数字信号を出力する右サウンドチャンネル音源を解消するモジュールをさらに含む。

好ましくは、前記認識ユニットにおいて、前記左サウンドチャンネルの数字信号と前記右サウンドチャンネルの数字信号とを接収して、出力する録音アダプタを含む。

好ましくは、前記認識ユニットにおいて、前記録音アダプタに連接され、前記左サウンドチャンネルの数字信号と前記右サウンドチャンネルの数字信号を混合して混合信号を生成して、出力するサウンドチャンネルが混合されるモジュールをさらに含む。

好ましくは、前記認識ユニットにおいて、前記サウンドチャンネルが混合されるモジュールに連接され、前記混合信号における音声信号を検測して、検査結果を取得して、前記検査結果によって、相応しい通知を出力する検測モジュールをさらに含む。

好ましくは、前記認識ユニットにおいて、前記検測モジュールと前記サウンドチャンネルが混合されるモジュールに連接され、接収した前記通知によって、前記混合信号を識別する音声認識モジュールをさらに含む。

本発明の技術案により、ロボット自身音源を解消するシステムはロボット自身の放送した音楽における干渉信号を相殺や抑制することができ、音声認識に純粋な音声信号を提供するようにより、ロボットの音声認識率を高めるようになる。

図１は本発明の一つ好ましい実施例の、ロボット自身音源を解消するシステムのモジュール図である。

具体的な実施形態

以下は、本発明の実施形態の付図を参照しながら、本発明実施例の技術案をはっきり、完全的に説明し、明らかに、記載されている実施例はただ本発明の一部だけであり、全部の実施例ではない。本発明の実施例に基づいて、当業者が創造的な労働をしなかったもとに取得した他の実施例は全部本発明の保護範囲内に属する。

説明すべきのは、衝突しない状況では、本発明の実施例及び実施例中の特徴を相互的に組み合わせることができる。

以下は図面と具体的な実施例により、本発明をもっと詳しく説明するが、本発明の制限とするものではない。

図１の示したように、本発明のロボット自身音源を解消するシステムは、
左右サウンドチャンネルが混合される数字信号を収集し、出力するピックアップユニット１と；
ピックアップユニット１に連接され、接収されたロボット自身音源の参考信号と左右サウンドチャンネルが混合される数字信号を混合して音声信号を形成して、出力するサウンドカード駆動ユニット２と、
サウンドカード駆動ユニット２に連接され、混合音声信号を左右サウンドチャンネルが混合される数字信号と参考信号とに分離して、左右サウンドチャンネルが混合される数字信号における干渉信号が存在するかどうかを判断して、放送信号量を取得して、出力する信号分離ユニット３と、
信号分離ユニット３に連接され、参考信号と放送信号量と左右サウンドチャンネルが混合される数字信号とを接収し、放送信号量によって、左右サウンドチャンネルが混合される数字信号における干渉信号を解消して、出力する音源解消ユニット４と、
音源解消ユニット４に連接され、左右サウンドチャンネルが混合される数字信号を認識する認識ユニット５と；
を含む。

更に、サウンドカード駆動ユニット２はUSBサウンドカード駆動を採用することができ、USBサウンドカードはAndroid（登録商標）システム設備中の標準USBサウンドカード駆動であり；ピックアップユニット１はダブルサウンドチャンネル遠距離ピックアップマイクロホンを採用することができ、当該マイクロホンはステレオをピックアップする機能を具備し；また、一つのUSBインターフェースと一つの3.5Line-outインターフェースを含むことができ、3.5Line-outインターフェースは左右サウンドチャンネルPCM（パルスコード変調）の参考信号を収集して、収集された参考信号をマイクロホンがピックアップした音声信号と一緒に、USBインターフェースを介して、Androidシステムに同期に出力するために用いられ；USBインターフェースを介して、ロボット自身音源を解消するマイクロホンとロボットのメインコントロールボード３とを接続して、USBサウンドカードの方式でAndroidシステムにアクセスし；よって、マイクロホンにより収集された左右サウンドチャンネルが混合される数字信号と3.5Line-outインターフェースから収集された左右サウンドチャンネルPCMの参考信号とを、USBサウンドカード駆動を介して、信号分離ユニット３まで出力する。信号分離ユニット３はUSBサウンドカード駆動により収集された混合音声信号を左右サウンドチャンネルが混合される数字信号と参考信号とに分離し；それに左右サウンドチャンネルが混合される数字信号によってシステムは音楽を放送しているかどうかを判断する。システムは音楽を放送している場合は、放送信号量をTrueに設定して、そして放送信号量と左右サウンドチャンネルが混合される数字信号と参考信号とを同期に音源解消ユニット４に送信し、処理し；システムは音楽を放送してない場合、放送信号量をFalseに設定し、システム処理流れが直接的に認識ユニット５に入る。

本実施例では、ロボット自身音源を解消するシステムを採用することにより、ロボット自身の放送した音楽における干渉信号を相殺や抑制することができ、音声識別には純粋な音声信号を提供することができ、よって、ロボットの音声認識率を向上させるようになり、よってユーザーのハンズフリー（Hands-free）の音声識別体験も高めるようになる。

好ましい実施例では、音源解消ユニット４は参考信号と放送信号量と左右サウンドチャンネルが混合される数字信号とを接収し、放送信号量によって左右サウンドチャンネルが混合される数字信号における干渉信号を解消し、左サウンドチャンネルの数字信号を出力する左サウンドチャンネル音源解消モジュール４１を含むことができる。

本実施例にの左サウンドチャンネル音源を解消するモジュール４１はシステムが音楽を放送する時に音声識別に対する干渉を抑制することができる。サウンドチャンネル音源を解消するモジュールに入力されるパラメータが三つある：マイクロホンがピックアップした左右サウンドチャンネルが混合される数字信号と自身音源の左右サウンドチャンネルPCMの参考信号と放送信号量。放送信号量はTrueである場合、左サウンドチャンネル音源解消モジュール４１はマイクロホンによりピックアップしされた左右サウンドチャンネルが混合される数字信号に対して自身音源を解消する。左サウンドチャンネル音源を解消するモジュール４１は左サウンドチャンネルの数字信号を出力し；音楽を放送信号量はFalseである場合、左サウンドチャンネル音源を解消するモジュール４１を越えて、直接にシステムの流れは認識ユニット５に入る。

好ましい実施形例では、音源解消ユニット４は参考信号と放送信号量と左右サウンドチャンネルが混合される数字信号とを接収し、放送信号量によって、左右サウンドチャンネルが混合される数字信号における干渉信号を解消して、右サウンドチャンネルの数字信号を出力する右サウンドチャンネル音源を解消するモジュール４２をさらに含む。

本実施例では、右サウンドチャンネル音源を解消するモジュール４２はシステムが音楽を放送する時に、音声認識に対する干渉を抑制することができる。右サウンドチャンネル音源解消モジュール４２に入力されるパラメータは三つある：マイクロホンがピックアップした左右サウンドチャンネルが混合される数字信号と自身音源の左右サウンドチャンネルPCMの参考信号と放送信号量。放送信号料はTrueである場合、右サウンドチャンネル音源を解消するモジュール４２はマイクロホンがピックアップした左右サウンドチャンネルが混合される数字信号に対して自身音源を解消する。右サウンドチャンネル音源を解消するモジュール４２は右サウンドチャンネルの数字信号を出力する。音楽放送信号量はFalseである場合、右サウンドチャンネル音源を解消するモジュール４２を越えて、システムの流れは直接識別ユニット５に入る。

好ましい実施例では、認識ユニット５は左サウンドチャンネル音源を解消するモジュール４１と右サウンドチャンネル音源を解消するモジュール４２とに接され、左サウンドチャンネルの数字信号と右サウンドチャンネルの数字信号とを接収して、出力する録音アダプタ５１を含むことができる。

本実施例では、採用された録音アダプタ５１は録音効果が良い、音声が純粋で、且つ、騒音がないメリットを持つ。

好ましい実施例では、認識ユニット５は録音アダプタ５１に連接され、左サウンドチャンネルの数字信号と右サウンドチャンネルの数字信号とを混合して混合信号を生成して、出力するサウンドチャンネルを混合するモジュール５２をさらに含むことができる。

本実施例では、サウンドチャンネルを混合するモジュール５２を採用して、録音アダプタ５１から出力された左サウンドチャンネルの数字信号と右サウンドチャンネルの数字信号を混合して、出力することができる。

好ましい実施例では、認識ユニット５はサウンドチャンネル混合モジュール５２に連接され、混合信号における音声信号を検測し、検測結果を取得して、結果によって、相応しい通知を出力する検測モジュール５３をさらに含むことができる。

本実施形態中で、検測モジュール５３は混合信号を検測し、音声信号を検出する場合、相応しい通知事件を生成して、出力する。

好ましい実施例では、認識ユニット５は検査モジュール５３とサウンドチャンネルを混合するモジュール５２とにそれぞれ連接され、接収された通知によって、混合信号を識別する音声識別モジュール５４をさらに含むことができる。

本実施例では、検測モジュール５３は音声信号を検出した場合、相応しい通知事件を生成し、音声認識モジュール５４を起動させ、音声認識モジュール５４により、音声を識別する。

本発明はUSBサウンドカードを採用して、マイクロホンが収集した数字信号を信号分離ユニット３に送信する。ロボット自身音源を解消するシステムはロボットサウンドシステムの放送した自身音源を有効的に解消や抑制することができる。信号分離ユニット３を採用して、マイクロホンにより収集された左右サウンドチャンネルが混合される数字信号と参考信号とを相互的に分離することができ、且つ、同時に音源解消ユニット４に入力して処理することができ；音源解消ユニット４により処理した後、信号対騒音比が高い音声信号を出力して、よって、音声認識率を高めるようになる。ロボット自身音源を解消するシステムはまたテキストフォーマットから変換された音声フォーマットの信号にも有効に自身音源を解消するまたは抑制することができる。

上記述べたのはただ本発明の好ましい実施例であり、本発明の実施方式と保護範囲を制限する意図がなくて、当業者には、本発明の明細書及び図面の内容を使って作り出された等しい置換や明らかな変更により取得された方案はすべて本発明の保護範囲内に属するということに意識すべきである。

Claims

左右サウンドチャンネルが混合されている数字信号を収集し、出力するピックアップユニットと；
前記ピックアップユニットに連接され、接収したロボット自身音源の参考信号と左右サウンドチャンネルが混合されている数字信号とを混合音声信号に混合し生成して出力するサウンドカード駆動ユニットと；
前記サウンドカード駆動ユニットに連接され、混合音声信号を左右サウンドチャンネルが混合されている数字信号と参考信号とに分離して、且つ、左右サウンドチャンネルが混合されている数字信号に干渉信号があるかどうかを判断し、放送信号量を取得して出力する信号分離ユニットと；
前記信号分離ユニットに連接され、参考信号と放送信号量と左右サウンドチャンネルが混合されている数字信号とを接収して、且つ、前記放送信号量によって、左右サウンドチャンネルが混合されている前記数字信号における干渉信号を解消して、出力する音源解消ユニットと；
前記音源解消ユニットに連接され、左右サウンドチャンネルが混合されている数字信号を識別する識別ユニットと；
を含むことを特徴とするロボット自身音源を解消するシステム。
前記音源解消ユニットにおいて、前記参考信号と、前記放送信号量と、左右サウンドチャンネルが混合されている前記数字信号とを接収し、前記放送信号量によって、左右サウンドチャンネルが混合されている前記数字信号における干渉信号を解消して、左サウンドチャンネルの数字信号を出力する左サウンドチャンネルの音源を解消するモジュールを含むことを特徴とする請求項１記載のロボット自身音源を解消するシステム。
前記音源解消ユニットにおいて、前記参考信号と前記放送信号量と左右サウンドチャンネルが混合されている前記数字信号とを接収し、前記放送信号量によって、左右サウンドチャンネルが混合されている前記数字信号における干渉信号を解消し、右サウンドチャンネルの数字信号を出力する右サウンドチャンネル音源を解消するモジュールをさらに含むことを特徴とする請求項２記載のロボット自身音源を解消するシステム。
前記認識ユニットにおいて、前記左サウンドチャンネルの数字信号と前記右サウンドチャンネルの数字信号とを接収して、出力する録音アダプタを含むことを特徴とする請求項３記載のロボット自身音源を解消するシステム。
前記認識ユニットにおいて、前記録音アダプタに連接され、前記左サウンドチャンネルの数字信号と前記右サウンドチャンネルの数字信号とを混合して、混合信号に生成して、出力するサウンドチャンネルが混合されるモジュールをさらに含むことを特徴とする請求項４記載のロボット自身音源を解消するシステム。
前記認識ユニットにおいて、前記サウンドチャンネルが混合されるモジュールに連接され、前記混合信号における音声信号を検測して、検測結果を取得して、前記結果によって相応する通知を出力する検測モジュールをさらに含むことを特徴とする請求項５記載のロボット自身音源を解消するシステム。
前記認識ユニットにおいて、前記検測モジュールと前記サウンドチャンネルが混合されるモジュールとに連接され、接収した前記通知によって、前記混合信号を識別する音声認識モジュールをさらに含むことを特徴とする請求項６記載のロボット自身音源を解消するシステム。