JP2022088528A - 車載通話方法、装置、電子機器、コンピュータ可読記憶媒体及びコンピュータプログラム - Google Patents

車載通話方法、装置、電子機器、コンピュータ可読記憶媒体及びコンピュータプログラム Download PDF

Info

Publication number
JP2022088528A
JP2022088528A JP2022053429A JP2022053429A JP2022088528A JP 2022088528 A JP2022088528 A JP 2022088528A JP 2022053429 A JP2022053429 A JP 2022053429A JP 2022053429 A JP2022053429 A JP 2022053429A JP 2022088528 A JP2022088528 A JP 2022088528A
Authority
JP
Japan
Prior art keywords
audio data
audio
target
vehicle
position area
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022053429A
Other languages
English (en)
Inventor
イー チョウ
Yi Zhou
ゼン チェン
Zheng Chen
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Apollo Intelligent Connectivity Beijing Technology Co Ltd
Original Assignee
Apollo Intelligent Connectivity Beijing Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Apollo Intelligent Connectivity Beijing Technology Co Ltd filed Critical Apollo Intelligent Connectivity Beijing Technology Co Ltd
Publication of JP2022088528A publication Critical patent/JP2022088528A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/60Substation equipment, e.g. for use by subscribers including speech amplifiers
    • H04M1/6033Substation equipment, e.g. for use by subscribers including speech amplifiers for providing handsfree use or a loudspeaker mode in telephone sets
    • H04M1/6041Portable telephones adapted for handsfree use
    • H04M1/6075Portable telephones adapted for handsfree use adapted for handsfree use in a vehicle
    • H04M1/6083Portable telephones adapted for handsfree use adapted for handsfree use in a vehicle by interfacing with the vehicle audio system
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60KARRANGEMENT OR MOUNTING OF PROPULSION UNITS OR OF TRANSMISSIONS IN VEHICLES; ARRANGEMENT OR MOUNTING OF PLURAL DIVERSE PRIME-MOVERS IN VEHICLES; AUXILIARY DRIVES FOR VEHICLES; INSTRUMENTATION OR DASHBOARDS FOR VEHICLES; ARRANGEMENTS IN CONNECTION WITH COOLING, AIR INTAKE, GAS EXHAUST OR FUEL SUPPLY OF PROPULSION UNITS IN VEHICLES
    • B60K35/00Instruments specially adapted for vehicles; Arrangement of instruments in or on vehicles
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/002Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/02Services making use of location information
    • H04W4/021Services related to particular areas, e.g. point of interest [POI] services, venue services or geofences
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/30Services specially adapted for particular environments, situations or purposes
    • H04W4/40Services specially adapted for particular environments, situations or purposes for vehicles, e.g. vehicle-to-pedestrians [V2P]
    • H04W4/48Services specially adapted for particular environments, situations or purposes for vehicles, e.g. vehicle-to-pedestrians [V2P] for in-vehicle communication
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60KARRANGEMENT OR MOUNTING OF PROPULSION UNITS OR OF TRANSMISSIONS IN VEHICLES; ARRANGEMENT OR MOUNTING OF PLURAL DIVERSE PRIME-MOVERS IN VEHICLES; AUXILIARY DRIVES FOR VEHICLES; INSTRUMENTATION OR DASHBOARDS FOR VEHICLES; ARRANGEMENTS IN CONNECTION WITH COOLING, AIR INTAKE, GAS EXHAUST OR FUEL SUPPLY OF PROPULSION UNITS IN VEHICLES
    • B60K2360/00Indexing scheme associated with groups B60K35/00 or B60K37/00 relating to details of instruments or dashboards
    • B60K2360/148Instrument input by voice
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60KARRANGEMENT OR MOUNTING OF PROPULSION UNITS OR OF TRANSMISSIONS IN VEHICLES; ARRANGEMENT OR MOUNTING OF PLURAL DIVERSE PRIME-MOVERS IN VEHICLES; AUXILIARY DRIVES FOR VEHICLES; INSTRUMENTATION OR DASHBOARDS FOR VEHICLES; ARRANGEMENTS IN CONNECTION WITH COOLING, AIR INTAKE, GAS EXHAUST OR FUEL SUPPLY OF PROPULSION UNITS IN VEHICLES
    • B60K35/00Instruments specially adapted for vehicles; Arrangement of instruments in or on vehicles
    • B60K35/10Input arrangements, i.e. from user to vehicle, associated with vehicle functions or specially adapted therefor
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60KARRANGEMENT OR MOUNTING OF PROPULSION UNITS OR OF TRANSMISSIONS IN VEHICLES; ARRANGEMENT OR MOUNTING OF PLURAL DIVERSE PRIME-MOVERS IN VEHICLES; AUXILIARY DRIVES FOR VEHICLES; INSTRUMENTATION OR DASHBOARDS FOR VEHICLES; ARRANGEMENTS IN CONNECTION WITH COOLING, AIR INTAKE, GAS EXHAUST OR FUEL SUPPLY OF PROPULSION UNITS IN VEHICLES
    • B60K35/00Instruments specially adapted for vehicles; Arrangement of instruments in or on vehicles
    • B60K35/65Instruments specially adapted for specific vehicle types or users, e.g. for left- or right-hand drive
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • H04M1/72448User interfaces specially adapted for cordless or mobile telephones with means for adapting the functionality of the device according to specific conditions
    • H04M1/72454User interfaces specially adapted for cordless or mobile telephones with means for adapting the functionality of the device according to specific conditions according to context-related or environment-related conditions
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2250/00Details of telephonic subscriber devices
    • H04M2250/74Details of telephonic subscriber devices with voice recognition means
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2499/00Aspects covered by H04R or H04S not otherwise provided for in their subgroups
    • H04R2499/10General applications
    • H04R2499/13Acoustic transducers and sound field adaptation in vehicles
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/12Circuits for transducers, loudspeakers or microphones for distributing signals to two or more loudspeakers
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Artificial Intelligence (AREA)
  • Chemical & Material Sciences (AREA)
  • Transportation (AREA)
  • Mechanical Engineering (AREA)
  • Combustion & Propulsion (AREA)
  • Quality & Reliability (AREA)
  • Evolutionary Computation (AREA)
  • Telephonic Communication Services (AREA)
  • Telephone Function (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

【課題】車載通話の柔軟性を向上させる車載通話方法、装置、電子機器、コンピュータ可読記憶媒体及びコンピュータプログラを提供する。【解決手段】方法は、対象車両中の各位置領域のオーディオデータを取得するステップ201と、各オーディオデータのオーディオパラメータに基づいて、各オーディオデータから目標オーディオデータを決定するステップ202と、目標オーディオデータに対応する目標位置領域を決定するステップ203と、目標位置領域のオーディオデータによって車載通話を行うように、目標位置領域に基づいて対象車両の車載通話パラメータを設定するステップ204と、を含む。【選択図】図2

Description

本開示はコンピュータの分野に関し、さらに車のインターネットの技術分野に関し、特に車載通話方法、装置、電子機器、コンピュータ可読記憶媒体及びコンピュータプログラムに関する。
現在、スマートカーは常にマルチオーディオゾーン技術を使用して、異なる位置にいる乗員が発する音声命令を正確に区別する。例えば、運転席のドライバーが話すと、ほかの座席のユーザーが発する音声を抑制し、運転席のドライバーが発する音声のみを受信する。
実際に使用したところ、マルチオーディオゾーン技術を使用するスマートカーで車載通話を行う場合、1つの座席にのみ通話システムを割り当て、単一位置からの音声のピックアップを実現するしかできず、ユーザーの要望に応じて通話位置を動的に切り替える使用需要を満たすことができないことを見出した。従って、現在の車載通話方法は通話の柔軟性が低いという問題を抱えている。
本開示は車載通話方法、装置、電子機器、コンピュータ可読記憶媒体及びコンピュータプログラムを提供する。
第1態様によれば、対象車両中の各位置領域のオーディオデータを取得するステップと、各オーディオデータのオーディオパラメータに基づいて、各オーディオデータから目標オーディオデータを決定するステップと、目標オーディオデータに対応する目標位置領域を決定するステップと、目標位置領域のオーディオデータによって車載通話を行うように、目標位置領域に基づいて対象車両の車載通話パラメータを設定するステップと、を含む車載通話方法を提供する。
第2態様によれば、対象車両中の各位置領域のオーディオデータを取得するように構成されるオーディオ取得ユニットと、各オーディオデータのオーディオパラメータに基づいて、各オーディオデータから目標オーディオデータを決定するように構成されるオーディオ決定ユニットと、目標オーディオデータに対応する目標位置領域を決定するように構成される領域決定ユニットと、目標位置領域のオーディオデータによって車載通話を行うように、目標位置領域に基づいて対象車両の車載通話パラメータを設定するように構成される設定ユニットと、を備える車載通話装置を提供する。
第3態様によれば、1つ又は複数のプロセッサと、1つ又は複数のプログラムを記憶するためのメモリと、を備え、1つ又は複数のプログラムが1つ又は複数のプロセッサによって実行されると、1つ又は複数のプロセッサに前記いずれかの車載通話方法を実現させる車載通話方法を実行する電子機器を提供する。
第4態様によれば、コンピュータに前記いずれかの車載通話方法を実行させるためのコンピュータ命令が記憶される非一時的コンピュータ可読記憶媒体を提供する。
第5態様によれば、プロセッサによって実行されると前記いずれかの車載通話方法を実現するコンピュータプログラムを提供する。
本願の技術によれば、車載通話方法を提供し、マルチオーディオゾーン技術を使用するスマートカーに適用でき、車両の各位置領域のオーディオデータのオーディオパラメータに基づいて、通話意向が最も強い目標オーディオデータを決定し、目標オーディオデータに対応する目標位置領域に基づいて車載通話パラメータを設定し、目標位置領域のオーディオデータを車載通話の通話者とすることを実現する。このプロセスはオーディオパラメータに基づいて車載通話を行う位置領域を柔軟に決定し、対応して車載通話パラメータを設定することができ、ユーザーの要望に応じて通話位置を動的に切り替えることを実現し、車載通話の柔軟性を向上させる。
理解できるように、この部分に記載の内容は本開示の実施例の肝心又は重要な特徴を特定することを意図するものでもなく、本開示の範囲を限定するものではない。本開示のほかの特徴は以下の明細書によって容易に理解されるようになる。
図面は本手段をよりよく理解することに用いられ、本開示を限定するものではない。
本願の一実施例を適用できる例示的なシステムアーキテクチャ図である。 本願に係る車載通話方法の一実施例のフローチャートである。 本願に係る車載通話方法の1つの適用シナリオの模式図である。 本願に係る車載通話方法の別の実施例のフローチャートである。 本願に係る車載通話装置の一実施例の構造模式図である。 本開示の実施例における車載通話方法を実現するための電子機器のブロック図である。
以下、図面を参照しながら本開示の例示的な実施例を説明し、理解を助けるように本開示の実施例の様々な細部が含まれているが、単なる例示的なものであると考えられる。従って、当業者が理解できるように、本開示の範囲及び趣旨を逸脱せずに、ここで説明される実施例に対して種々の変更や修正を行うことができる。同様に、明確化及び簡明化のために、以下の説明では公知の機能及び構造についての説明は省略される。
なお、矛盾しない限り、本願の実施例及び実施例の特徴を互いに組み合わせることができる。以下、図面及び実施例を参照しながら本願を詳細に説明する。
図1に示すように、システムアーキテクチャ100は端末機器101、102、103、ネットワーク104及びサーバ105を備えてもよい。ネットワーク104は端末機器101、102、103とサーバ105との間で通信リンクを提供するための媒体である。ネットワーク104は、例えば、有線、無線通信リンク又は光ファイバケーブル等の様々な接続タイプを含んでもよい。
ユーザーは端末機器101、102、103を使用してネットワーク104を介してサーバ105と対話して、メッセージ等を受信又は送信するようにしてもよい。端末機器101、102、103は対象車両中の車載端末であってもよく、具体的には、携帯電話、コンピュータ及びタブレットパソコン等の電子機器を含んでもよいが、これらに限定されず、端末機器101、102、103は対象車両のマイクロフォン機器と対話して、マイクロフォン機器により収集されるオーディオデータを取得するようにしてもよい。対象車両はマルチオーディオゾーン技術を使用する車両であってもよく、対象車両中に複数の位置領域が含まれ、各位置領域は相応なマイクロフォン機器に対応する。各位置領域のマイクロフォン機器により収集されるオーディオデータに基づいて、各位置領域のオーディオデータを得ることができる。
端末機器101、102、103はハードウェアであってもよく、ソフトウェアであってもよい。端末機器101、102、103がハードウェアである場合、様々な電子機器であってもよく、テレビ、スマートフォン、タブレットパソコンコンピュータ、電子書籍リーダー、車載コンピュータ、ラップトップ型ポータブルコンピュータ及びデスクトップコンピュータ等を含むが、これらに限定されない。端末機器101、102、103がソフトウェアである場合、上記列挙された電子機器に取り付けられてもよい。複数のソフトウェア又はソフトウェアモジュール(例えば、分散型サービスを提供することに用いられる)として実現されてもよく、単一のソフトウェア又はソフトウェアモジュールとして実現されてもよい。ここでは特に限定しない。
サーバ105は様々なサービスを提供するサーバであってもよく、例えば、端末機器101、102、103が対象車両中の各位置領域のオーディオデータを取得した後、サーバ105は各オーディオデータのオーディオパラメータに基づいて、各オーディオデータから目標オーディオデータを決定し、目標位置領域のオーディオデータによって車載通話を行うように、目標オーディオデータに対応する目標位置領域に基づいて対象車両の車載通話パラメータを設定することができる。サーバ105が車載通話パラメータを設定した後、端末機器101、102、103は目標位置領域に対応するマイクロフォン機器から伝送される目標オーディオデータを受信し、サーバ105が目標オーディオデータを、車載通話を行う別の端末機器に伝送するように、目標オーディオデータをサーバ105に伝送することができる。
なお、サーバ105はハードウェアであってもよく、ソフトウェアであってもよい。サーバ105がハードウェアである場合、複数のサーバからなる分散型サーバクラスターとして実現されてもよく、単一のサーバとして実現されてもよい。サーバ105がソフトウェアである場合、複数のソフトウェア又はソフトウェアモジュール(例えば、分散型サービスを提供することに用いられる)として実現されてもよく、単一のソフトウェア又はソフトウェアモジュールとして実現されてもよい。ここでは特に限定しない。
なお、本願の実施例に係る車載通話方法は、端末機器101、102、103によって実行されてもよく、サーバ105によって実行されてもよい。対応して、車載通話装置は端末機器101、102、103内に設置されてもよく、サーバ105内に設置されてもよい。
理解できるように、図1中の端末機器、ネットワーク及びサーバの数は単なる例示的なものである。実現の需要に応じて、任意数の端末機器、ネットワーク及びサーバを備えてもよい。
続いて、図2に参照されるように、本願に係る車載通話方法の一実施例のプロセス200を示す。本実施例における車載通話方法は以下のステップを含む。
ステップ201、対象車両中の各位置領域のオーディオデータを取得する。
本実施例では、実行主体(図1中のサーバ105又は端末機器101、102、103)は対象車両を複数の位置領域に分割してもよく、各位置領域は独立し、ほかの位置領域の音声に干渉されず、それにより異なる位置領域の音声命令を正確に区別することを実現する。実行主体は対象車両の座席に応じて位置領域に分割してもよく、例えば、各座席は1つの位置領域に対応し、対象車両が5つの座席を有するものである場合、対応して5つの位置領域がある。また、実行主体は対象車両の現在の画像情報を取得し、現在の画像情報に対して画像認識を行い、対象車両の現在の乗員位置情報を得て、各位置領域が1つの乗員の位置に対応するように現在の乗員位置情報に基づいて各位置領域を決定するようにしてもよい。また、実行主体は対象車両中の各マイクロフォンにより収集される音声情報を取得し、音源定位技術に基づいて、対象車両の現在の乗員位置情報を決定し、現在の乗員位置情報に基づいて各位置領域を決定するようにしてもよい。
さらに、実行主体は対象車両中のマイクロフォン機器と接続を確立し、マイクロフォン機器から伝送される対象車両中の各位置領域のオーディオデータを受信するようにしてもよい。マイクロフォン機器の数は通常、複数であり、異なる位置領域に対応する。例えば、各マイクロフォン機器は1つの位置領域に対応し、該位置領域のオーディオを収集することに用いられ、このとき、実行主体は各位置領域のマイクロフォン機器に基づいてオーディオデータを収集するようにしてもよい。また、実行主体は対象車両中の音声情報を直接収集し、音声情報を分析して、各位置領域に対応するオーディオデータを得るようにしてもよい。
ステップ202、各オーディオデータのオーディオパラメータに基づいて、各オーディオデータから目標オーディオデータを決定する。
本実施例では、オーディオパラメータはオーディオデータのオーディオ状態を記述するためのパラメータであり、オーディオデシベル、オーディオエネルギー、オーディオ振幅、及びオーディオチャネル等を含んでもよいが、これらに限定されず、本実施例ではこれを限定しない。実行主体は各オーディオデータのオーディオパラメータに基づいて、各オーディオデータから車載通話を行うための目標オーディオデータをスクリーニングするようにしてもよい。具体的には、実行主体は予め訓練されたオーディオ処理モデルに基づいて、各オーディオデータのオーディオパラメータを該オーディオ処理モデルに入力し、目標オーディオデータを得るようにしてもよい。オーディオ処理モデルは、訓練オーディオサンプルセット、及び訓練オーディオサンプルセット中の各訓練オーディオサンプルに対応するラベル情報を取得するステップであって、ラベル情報は通話オーディオ又は非通話オーディオを含むステップと、訓練オーディオサンプルセット及び訓練すべきニューラルネットワークモデルに基づいて、各訓練オーディオサンプルに対応する予測ラベルを得るステップと、予め設定された訓練収束条件を満たすまで、予測ラベル及び予め設定されたラベル情報に基づいて訓練すべきニューラルネットワークモデルのモデルパラメータを調整し、訓練済みのニューラルネットワークモデルを得るステップと、によって得られる。
本実施例のいくつかの選択可能な実現形態では、各オーディオデータのオーディオパラメータに基づいて、各オーディオデータから目標オーディオデータを決定するステップは、各オーディオデータのセマンティック情報を取得するステップと、各オーディオデータのオーディオパラメータ及びセマンティック情報に基づいて、各オーディオデータから目標オーディオデータを決定するステップと、を含む。
本実現形態では、実行主体はさらに各オーディオデータのセマンティック情報を取得してもよく、具体的には、音声認識技術によって、各オーディオデータに対応するセマンティック情報を決定してもよい。セマンティック情報はオーディオデータに対応するセマンティックコンテンツを記述することに用いられる。目標オーディオデータを決定する際に、オーディオパラメータ及びセマンティック情報の両方に基づいて目標オーディオデータを決定してもよい。例えば、各位置領域の乗員がいずれも話し合っている場合、車載通話を行う必要がある位置領域の乗員を認識し、互いに話し合う位置領域の乗員を認識し、ほかの様々な非車載通話シナリオで会話を行う乗員を認識する必要がある。実行主体は、まず、各オーディオデータのオーディオパラメータに基づいて、少なくとも1つの候補オーディオデータを決定し、次に、セマンティック情報に基づいて少なくとも1つの候補オーディオデータから目標オーディオデータを決定するようにしてもよい。選択可能に、車載通話を行うキーワードを予め設定するようにしてもよく、セマンティック情報から該キーワードが検出されると、該セマンティック情報に対応するオーディオデータを目標オーディオデータとして決定する。
ステップ203、目標オーディオデータに対応する目標位置領域を決定する。
本実施例では、各オーディオデータと位置領域は対応関係を有する。実行主体は目標オーディオデータを決定した後、さらに該目標オーディオデータに対応する目標位置領域を決定してもよい。各オーディオデータと位置領域との対応関係は、オーディオデータを収集するマイクロフォン機器と位置領域との対応関係に基づいて決定されてもよく、オーディオデータの音声測位情報と位置領域との対応関係に基づいて決定されてもよく、本実施例ではこれを限定しない。
ステップ204、目標位置領域のオーディオデータによって車載通話を行うように、目標位置領域に基づいて対象車両の車載通話パラメータを設定する。
本実施例では、車載通話パラメータは車載通話のオーディオ受信データを設定することに用いられる。目標位置領域に基づいて対象車両の車載通話パラメータを設定するステップは、対象車両中の車載通話を行うオーディオチャネルを目標位置領域に対応するオーディオチャネルとして設定するステップ、又は、対象車両中のすべてのオーディオデータを受信し、目標位置領域に対応するオーディオデータを除く各オーディオデータに対してノイズ低減処理を行い、ノイズ低減処理後のオーディオデータに基づいて音声を対象車両と車載通話を行う電子機器に送信するステップを含んでもよい。車載通話は車載音声通話であってもよく、車載ビデオ通話であってもよく、本実施例ではこれを限定しない。
選択可能に、目標位置領域のオーディオデータによって車載通話を行うように、目標位置領域に基づいて対象車両の車載通話パラメータを設定するステップは、対象車両中のマイクロフォン機器、カメラ機器と接続を確立するステップと、マイクロフォン機器が目標位置領域に対応する目標ユーザーが発する音声を収集し、カメラ機器が目標位置領域に対応する目標ユーザーに対応する画像を収集するように制御ステップと、該音声及び該画像に基づいて合成を行い、リアルタイム伝送情報フローを得るステップと、リアルタイム伝送情報フローを、車載通話を行う電子機器に伝送するステップと、を含んでもよい。さらに選択可能に、該電子機器からフィードバックされる通話データを受信することに応答して、該通話データに対応する画像通話データ及び音声通話データを決定し、目標位置領域に対応する表示機器が画像通話データを出力し、目標位置領域に対応する音響機器が音声通話データを出力するように制御する。
続いて、図3に参照されるように、本願に係る車載通話方法の1つの適用シナリオの模式図を示す。図3の適用シナリオでは、対象車両301中に座席A、座席B、座席C及び座席Dが含まれ、座席Aは第1位置領域に対応し、座席Bは第2位置領域に対応し、座席Cは第3位置領域に対応し、座席Dは第4位置領域に対応する。実行主体はそれぞれ第1位置領域の第1オーディオデータ、第2位置領域の第2オーディオデータ、第3位置領域の第3オーディオデータ及び第4位置領域の第4オーディオデータを取得するようにしてもよい。さらに、各オーディオデータのオーディオパラメータに基づいて、各オーディオデータから目標オーディオデータを決定する。目標オーディオデータが第1オーディオデータであるとすると、第1位置領域を目標位置領域として決定し、第1オーディオデータによって車載通話を行うように第1位置領域に基づいて対象車両301の車載通話パラメータを設定し、つまり、第1オーディオデータを対象車両301との車載通話を行っている端末機器302に伝送する。
本願の上記実施例に係る車載通話方法は、マルチオーディオゾーン技術を使用するスマートカーに適用でき、車両の各位置領域のオーディオデータのオーディオパラメータに基づいて、通話の意向が最も強い目標オーディオデータを決定し、目標オーディオデータに対応する目標位置領域に基づいて車載通話パラメータを設定し、目標位置領域のオーディオデータを車載通話の通話者とすることを実現する。このプロセスはオーディオパラメータに基づいて車載通話を行う位置領域を柔軟に決定し、対応して車載通話パラメータを設定することができ、ユーザーの要望に応じて通話位置を動的に切り替えることを実現し、車載通話の柔軟性を向上させる。
続いて、図4に参照されるように、本願に係る車載通話方法の別の実施例のプロセス400を示す。図4に示すように、本実施例における車載通話方法は以下のステップを含んでもよい。
ステップ401、対象車両中の各位置領域に対して、該位置領域に対応するマイクロフォン機器を決定する。
本実施例では、対象車両中の各位置領域には、該位置領域におけるオーディオデータを収集するための少なくとも1つのマイクロフォン機器が対応してもよい。実行主体には、各位置領域と各マイクロフォン機器との対応関係が予め記憶されてもよい。
ステップ402、各位置領域に対応するマイクロフォン機器に基づいて、各位置領域のオーディオデータを取得する。
本実施例では、実行主体は各マイクロフォン機器と接続を確立し、各マイクロフォン機器から伝送される各位置領域のオーディオデータを受信するようにしてもよい。選択可能に、各位置領域のオーディオデータを取得する際に、初期収集したオーディオデータを処理し、オーディオデータ中の人間の声でない部分をフィルタリングし、フィルタリング後のオーディオデータを各位置領域のオーディオデータとするようにしてもよい。
ステップ403、各オーディオデータのオーディオエネルギーを決定する。
本実施例では、オーディオパラメータはオーディオエネルギーを含む。実行主体は各オーディオデータに対して、該オーディオデータ中の音声の周波数、振幅、及び音波速度を決定し、さらに音声の周波数、振幅、音波速度及び予め設定された媒体密度に基づいて、各オーディオデータに対応するオーディオエネルギーを計算するようにしてもよい。さらに又は、実行主体は予め設定されたオーディオエネルギー決定インターフェースを呼び出し、オーディオエネルギー決定インターフェースに基づいて、各オーディオデータのオーディオエネルギーを得るようにしてもよい。
ステップ404、オーディオエネルギーの降順で、各オーディオデータから目標オーディオデータを決定する。
本実施例では、実行主体はオーディオエネルギーが高いオーディオデータを目標オーディオデータとして選択してもよく、好ましくは、実行主体は各オーディオデータからオーディオエネルギーが最も高いオーディオデータを目標オーディオデータとして選択する。
本実施例のいくつかの選択可能な実現形態では、オーディオエネルギーの降順で、各オーディオデータから目標オーディオデータを決定するステップは、予め設定されたエネルギー閾値を取得するステップと、オーディオエネルギーの降順で、各オーディオデータからオーディオエネルギーが予め設定されたエネルギー閾値よりも大きいオーディオデータを目標オーディオデータとして選択するステップと、を含む。
本実現形態では、実行主体はさらにエネルギー閾値を予め設定してもよく、エネルギー閾値はオーディオエネルギーが低すぎるか否かを決定することに用いられ、それによりオーディオエネルギーが予め設定されたエネルギー閾値よりも大きいオーディオデータを目標オーディオデータとして選択する。具体的には、実行主体は、オーディオエネルギーの降順で、各オーディオデータからオーディオエネルギーが予め設定されたエネルギー閾値よりも大きいオーディオデータを選択してもよく、好ましくは、オーディオエネルギーが予め設定されたエネルギー閾値よりも大きく、且つオーディオエネルギーが最も高いオーディオデータを目標オーディオデータとする。選択可能に、少なくとも2つのオーディオデータのオーディオエネルギーが予め設定されたエネルギー閾値よりも大きく、且つオーディオエネルギーが同じであると決定することに応答して、該少なくとも2つのオーディオデータを候補オーディオデータとし、さらに各候補オーディオデータのセマンティック情報を取得し、セマンティック情報に対してセマンティック認識及びキーワードマッチングを行い、候補オーディオデータから予め設定された通話キーワードとの一致度が最も高いオーディオデータを、目標オーディオデータとして決定する。
ステップ405、目標オーディオデータに対応する目標位置領域を決定する。
本実施例では、ステップ405の詳細な説明について、ステップ203の詳細な説明を参照できるため、ここでは重複説明を省略する。
ステップ406、目標位置領域のオーディオデータによって車載通話を行うように、目標位置領域に基づいて対象車両の車載通話パラメータを設定する。
本実施例では、ステップ406の詳細な説明について、ステップ204の詳細な説明を参照できるため、ここでは重複説明を省略する。
ステップ407、対象車両中の各位置領域のオーディオ変化データを監視する。
本実施例では、実行主体は、オーディオ変化データをリアルタイムに検出してもよく、予め設定された検出周期でオーディオ変化データを定期的に検出してもよく、本実施例ではこれを限定しない。オーディオ変化データは、各位置領域のオーディオデータの変化状況を記述することに用いられ、例えば、オーディオエネルギー変化状況が挙げられ、具体的には、現在の時刻における変化後の各オーディオデータのオーディオエネルギーを含んでもよい。
ステップ408、オーディオ変化データに基づいて車載通話パラメータを更新する。
本実施例では、実行主体は、現在の時刻におけるオーディオエネルギーが最も大きいオーディオデータによって車載通話を行うように、オーディオ変化データに基づいて車載通話パラメータを更新する。例えば、過去の車載通話パラメータは、目標位置領域のオーディオデータによって車載通話を行うように設定されてもよく、今回、オーディオ変化データを監視するときに、目標位置領域のオーディオデータのオーディオエネルギーが最も大きいオーディオエネルギーではないと検出すると、オーディオ変化データに基づいて現在のオーディオエネルギーが最も大きいオーディオデータを、車載通話を行うオーディオデータとして設定する。
本願の上記実施例に係る車載通話方法はさらに、オーディオデータのオーディオエネルギーの順序に基づいて車載通話を行う目標オーディオデータを選択することができ、オーディオエネルギーに基づいてユーザーが車載通話を行う意図を決定することを実現し、車載通話パラメータの設定はより通話の要件に合致する。また、選択される目標オーディオデータのオーディオエネルギーは予め設定されたエネルギー閾値よりも大きくてもよいことで、オーディオエネルギーが低いため通話効果が悪いという現象が発生する確率を低下させ、さらに通話効果を向上させる。オーディオ変化データに応じて車載通話パラメータを更新できることで、通話オーディオの動的更新を実現する。さらにオーディオデータのセマンティック情報及びオーディオパラメータの両方と組み合わせて目標オーディオデータを決定できることで、目標オーディオデータの正確度を向上させる。
さらに図5に参照されるように、上記各図に示す方法の実現として、本願は車載通話装置の一実施例を提供し、該装置実施例は図2に示す方法実施例に対応し、該装置は具体的には様々なサーバ又は端末機器に適用できる。
図5に示すように、本実施例における車載通話装置500は、オーディオ取得ユニット501、オーディオ決定ユニット502、領域決定ユニット503、及び設定ユニット504を備える。
オーディオ取得ユニット501は、対象車両中の各位置領域のオーディオデータを取得するように構成される。
オーディオ決定ユニット502は、各オーディオデータのオーディオパラメータに基づいて、各オーディオデータから目標オーディオデータを決定するように構成される。
領域決定ユニット503は、目標オーディオデータに対応する目標位置領域を決定するように構成される。
設定ユニット504は、目標位置領域のオーディオデータによって車載通話を行うように、目標位置領域に基づいて対象車両の車載通話パラメータを設定するように構成される。
本実施例のいくつかの選択可能な実現形態では、オーディオパラメータはオーディオエネルギーを含み、オーディオ決定ユニット502はさらに、各オーディオデータのオーディオエネルギーを決定し、オーディオエネルギーの降順で、各オーディオデータから目標オーディオデータを決定するように構成される。
本実施例のいくつかの選択可能な実現形態では、オーディオ決定ユニット502はさらに、予め設定されたエネルギー閾値を取得し、オーディオエネルギーの降順で、各オーディオデータからオーディオエネルギーが予め設定されたエネルギー閾値よりも大きいオーディオデータを目標オーディオデータとして選択するように構成される。
本実施例のいくつかの選択可能な実現形態では、オーディオ取得ユニット501はさらに、対象車両中の各位置領域に対して、該位置領域に対応するマイクロフォン機器を決定し、各位置領域に対応するマイクロフォン機器に基づいて、各位置領域のオーディオデータを取得するように構成される。
本実施例のいくつかの選択可能な実現形態では、設定ユニット504はさらに、対象車両中の各位置領域のオーディオ変化データを監視し、オーディオ変化データに基づいて車載通話パラメータを更新するように構成される。
本実施例のいくつかの選択可能な実現形態では、オーディオ決定ユニット502はさらに、各オーディオデータのセマンティック情報を取得し、各オーディオデータのオーディオパラメータ及びセマンティック情報に基づいて、各オーディオデータから目標オーディオデータを決定するように構成される。
理解できるように、車載通話装置500用の上記ユニット501~ユニット504はそれぞれ図2で説明された方法の各ステップを対応して参照できる。従って、以上車載通話方法について説明された操作及び特徴は同様に装置500及びそれに備えられるユニットに適用でき、ここでは重複説明を省略する。
本出願の実施例によれば、本開示は、電子機器、可読記憶媒体及びコンピュータプログラム製品を更に提供する。
図6は、本開示の実施例に係る車載通話方法を実行するための電子機器600のブロック図である。電子機器は、例えば、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、及びその他の適切なコンピュータなど、様々な形式のデジタルコンピュータを表すことを意図している。電子機器は、例えば、パーソナルデジタルアシスタント、セルラー電話、スマートフォン、ウェアラブル機器、及びその他の類似の計算装置など、様々な形式の移動装置を示してもよい。本明細書に示されている部材、それらの接続と関係、及びそれらの機能は単なる例であるが、本明細書の説明及び/又は要求される本開示の実現を制限することを意図はしない。
図6に示すように、機器600は、読み取り専用(ROM)602に記憶されたコンピュータプログラム又は記憶ユニット608からランダムアクセスメモリ(RAM)603にロードされたコンピュータプログラムに従って、様々な適切な動作及び処理を実行することができる計算ユニット601を含む。RAM603には、機器600の操作に必要な様々なプログラム及びデータが記憶されてもよい。計算ユニット601、ROM602及びRAM603は、バス604を介して互いに接続されている。入力/出力(I/O)インターフェース605もバス604に接続されている。
機器600の複数の部材はI/Oインターフェース605に接続され、マウス、キーボード等の入力ユニット606、たとえば、様々なタイプのディスプレイ、スピーカー等の出力ユニット607、磁気ディスク、光ディスク等の記憶ユニット608、及びネットワークカード、モデム、無線通信トランシーバ等の通信ユニット609を含む。通信ユニット609は、機器600が例えばインターネットのコンピュータネットワーク及び/又は各種の電信ネットワークを介して他の機器と情報/データを交換することを可能とする。
計算ユニット601は、処理能力及び計算能力を有する様々な汎用及び/又は専用の車載通話であってもよい。計算ユニット601のいくつかの例には、中央処理ユニット(CPU)、グラフィック処理ユニット(GPU)、様々な専用人工知能(AI)計算チップ、機械学習モデルアルゴリズムを実行する様々な計算ユニット、デジタル信号プロセッサ(DSP)、及び任意の適切なプロセッサ、コントローラ、マイクロコントローラなどが含まれるが、これらに限定されるものではない。計算ユニット601は、上述した様々な方法及び処理、例えば、車載通話方法を実行する。例えば、いくつかの実施例では、車載通話方法は、記憶ユニット608などの機械読み取り可能な媒体に物理的に含まれるコンピュータソフトウェアプログラムとして実現されてもよい。いくつかの実施例では、コンピュータプログラムの一部又は全部を、ROM 602及び/又は通信ユニット609を介して機器600にロード及び/又はインストールすることができる。コンピュータプログラムがRAM 603にロードされ、計算ユニット601によって実行されると、上述した車載通話方法の1つ又は複数のステップを実行することができる。オプションとして、別の実施例では、計算ユニット601は、他の任意の適切な方式で(例えば、ファームウェアによって)、車載通話方法を実行するように構成されてもよい。
本明細書に記載のシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途向け標準製品(ASSP)、システムオンチップシステム(SOC)、ロードプログラマブルロジック機器(CPLD)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせにおいて実現することができる。これらの様々な実施形態は、1つ又は複数のコンピュータプログラムにおいて実施され、この1つ又は複数のコンピュータプログラムは、少なくとも1つのプログラム可能なプロセッサを含むプログラム可能なシステムで実行及び/又は解釈され得、このプログラム可能なプロセッサは専用又は汎用のプログラム可能なプロセッサであってもよく、ストレージシステム、少なくとも1つの入力装置、及び少なくとも1つの出力装置からデータ及び命令を受信し、データ及び命令をこのストレージシステム、この少なくとも1つの入力装置、及びこの少なくとも1つの出力装置に送信することができる。
本開示の方法を実施するためのプログラムコードは1つ又は複数のプログラミング言語の任意の組み合わせで作成することができる。これらのプログラムコードは汎用コンピュータ、専用コンピュータ又は他のプログラム可能なデータ処理装置のプロセッサ又はコントローラに提供することができ、それによりプログラムコードはプロセッサ又はコントローラにより実行されると、フローチャート及び/又はブロック図に規定された機能/動作が実施される。プログラムコードは機械で完全に実行されてもよく、部分的に機械で実行されてもよく、独立したソフトウェアパッケージとして一部が機械で実行されかつ一部が遠隔機械で実行されるか、又は完全に遠隔機械又はサーバで実行されてもよい。
本開示の文脈において、機械読み取り可能な媒体はプログラムを含む又は記憶した有形媒体であってもよく、このプログラムは、命令実行システム、装置又は機器により使用されるか、又はそれらと組み合わせて使用されてもよい。機械読み取り可能な媒体は、機械読み取り可能な信号媒体又は機械読み取り可能な記憶媒体であってもよい。機械読み取り可能な媒体は、例えば電子的、磁気的、光学的、電磁的、赤外線、又は半導体のシステム、装置又は機器、又は以上の任意の組み合わせを含むことができるが、これらに限られない。機械読み取り可能な記憶媒体のより具体的な例は、1つ又は複数のワイヤによる電気接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能プログラム可読み取り専用メモリ(EPROM又はフラッシュメモリ)、光ファイバ、ポータブルコンパクトディスク読み取り専用メモリ(CD-ROM)、光記憶機器、磁気記憶機器、又は上記の任意の適切な組み合わせを含む。
ユーザと対話できるように、ここで記載されるシステム及び技術をコンピュータに実施することができ、このコンピュータは、ユーザに情報を表示するための表示装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニター)、ユーザがコンピュータに入力することを可能とするキーボード及びポインティング装置(例えば、マウスやトラックボール)を有する。他の種類の装置も、ユーザとの対話を提供することができ、例えば、ユーザに提供するフィードバックは、任意の形式の感覚フィードバック(例えば、視覚的フィードバック、聴覚的フィードバック、又は触覚的フィードバック)であってもよく、そして、ユーザからの入力は、任意の形式(音響入力、音声入力、又は触覚入力を含む)で受信できる。
ここで記載されるシステム及び技術は、バックエンドコンポーネントを含むコンピューティングシステム(例えば、データサーバとして)、又はミドルウェアコンポーネントを含むコンピューティングシステム(例えば、アプリケーションサーバ)、又はフロントエンドコンポーネントを含むコンピューティングシステム(例えば、グラフィカルユーザインターフェース又はネットワークブラウザーを備えたユーザコンピュータが挙げられ、ユーザはこのグラフィカルユーザインターフェース又はこのネットワークブラウザーを介してここで記載されるシステム及び技術の実施形態と対話できる)、又はこのようなバックエンドコンポーネント、ミドルウェアコンポーネント、又はフロントエンドコンポーネントの任意の組み合わせを含むコンピューティングシステムにおいて実施できる。システムのコンポーネントは、任意の形式又は媒体のデジタルデータ通信(例えば、通信ネットワーク)を介して相互に接続できる。通信ネットワークの例には、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、及びインターネットが含まれる。
コンピュータシステムには、クライアントとサーバを含むことができる。クライアントとサーバは通常、互いに遠く離れており、通信ネットワークを介してインタラクションする。クライアントとサーバの関係は、対応するコンピュータで実行され互いにクライアント-サーバの関係を持つコンピュータプログラムによって生成される。
なお、上記の様々な形式のプロセスを用いて、ステップを改めて並べ替えたり、追加したり、削除したりすることができる。例えば、本開示に記載の各ステップは、本開示で開示された技術案の所望の結果が達成できる限り、並行して実施しても、順次実施しても、異なる順次で実施してもよく、本明細書ではそれについて限定しない。
上記の具体的な実施形態は、本開示の保護範囲を制限するものではない。当業者にとって自明なように、設計要件及び他の要因に従って様々な修正、組み合わせ、サブコンビネーション及び置換を行うことができる。本開示の精神及び原則の範囲内で行われた修正、同等の置き換え及び改善等は、本開示の保護範囲に含まれるものとする。

Claims (15)

  1. 車載通話方法であって、
    対象車両中の各位置領域のオーディオデータを取得するステップと、
    各オーディオデータのオーディオパラメータに基づいて、各オーディオデータから目標オーディオデータを決定するステップと、
    前記目標オーディオデータに対応する目標位置領域を決定するステップと、
    前記目標位置領域のオーディオデータによって車載通話を行うように、前記目標位置領域に基づいて前記対象車両の車載通話パラメータを設定するステップと、を含む車載通話方法。
  2. オーディオパラメータはオーディオエネルギーを含み、
    前記各オーディオデータのオーディオパラメータに基づいて、各オーディオデータから目標オーディオデータを決定する前記ステップは、
    各オーディオデータのオーディオエネルギーを決定するステップと、
    前記オーディオエネルギーの降順で、各オーディオデータから前記目標オーディオデータを決定するステップと、を含む請求項1に記載の方法。
  3. 前記オーディオエネルギーの降順で、各オーディオデータから前記目標オーディオデータを決定する前記ステップは、
    予め設定されたエネルギー閾値を取得するステップと、
    前記オーディオエネルギーの降順で、各オーディオデータからオーディオエネルギーが前記予め設定されたエネルギー閾値よりも大きいオーディオデータを、前記目標オーディオデータとして選択するステップと、を含む請求項2に記載の方法。
  4. 対象車両中の各位置領域のオーディオデータを取得する前記ステップは、
    前記対象車両中の各位置領域に対して、該位置領域に対応するマイクロフォン機器を決定するステップと、
    各位置領域に対応するマイクロフォン機器に基づいて、各位置領域のオーディオデータを取得するステップと、を含む請求項1に記載の方法。
  5. 前記対象車両中の各位置領域のオーディオ変化データを監視するステップと、
    前記オーディオ変化データに基づいて前記車載通話パラメータを更新するステップと、をさらに含む請求項1に記載の方法。
  6. 各オーディオデータのオーディオパラメータに基づいて、各オーディオデータから目標オーディオデータを決定する前記ステップは、
    各オーディオデータのセマンティック情報を取得するステップと、
    各オーディオデータのオーディオパラメータ及びセマンティック情報に基づいて、各オーディオデータから前記目標オーディオデータを決定するステップと、を含む請求項1に記載の方法。
  7. 車載通話装置であって、
    対象車両中の各位置領域のオーディオデータを取得するように構成されるオーディオ取得ユニットと、
    各オーディオデータのオーディオパラメータに基づいて、各オーディオデータから目標オーディオデータを決定するように構成されるオーディオ決定ユニットと、
    前記目標オーディオデータに対応する目標位置領域を決定するように構成される領域決定ユニットと、
    前記目標位置領域のオーディオデータによって車載通話を行うように、前記目標位置領域に基づいて前記対象車両の車載通話パラメータを設定するように構成される設定ユニットと、を備える車載通話装置。
  8. 前記オーディオパラメータはオーディオエネルギーを含み、
    前記オーディオ決定ユニットはさらに、
    各オーディオデータのオーディオエネルギーを決定し、
    前記オーディオエネルギーの降順で、各オーディオデータから前記目標オーディオデータを決定するように構成される請求項7に記載の装置。
  9. 前記オーディオ決定ユニットはさらに、
    予め設定されたエネルギー閾値を取得し、
    前記オーディオエネルギーの降順で、各オーディオデータからオーディオエネルギーが前記予め設定されたエネルギー閾値よりも大きいオーディオデータを、前記目標オーディオデータとして選択するように構成される請求項8に記載の装置。
  10. 前記オーディオ取得ユニットはさらに、
    前記対象車両中の各位置領域に対して、該位置領域に対応するマイクロフォン機器を決定し、
    各位置領域に対応するマイクロフォン機器に基づいて、各位置領域のオーディオデータを取得するように構成される請求項7に記載の装置。
  11. 前記設定ユニットはさらに、
    前記対象車両中の各位置領域のオーディオ変化データを監視し、
    前記オーディオ変化データに基づいて前記車載通話パラメータを更新するように構成される請求項7に記載の装置。
  12. 前記オーディオ決定ユニットはさらに、
    各オーディオデータのセマンティック情報を取得し、
    各オーディオデータのオーディオパラメータ及びセマンティック情報に基づいて、各オーディオデータから前記目標オーディオデータを決定するように構成される請求項7に記載の装置。
  13. 車載通話方法を実行する電子機器であって、
    少なくとも1つのプロセッサと、
    前記少なくとも1つのプロセッサと通信可能に接続されるメモリと、を備え、
    前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶され、前記命令が前記少なくとも1つのプロセッサによって実行されると、前記少なくとも1つのプロセッサが請求項1-6のいずれか一項に記載の方法を実行できる電子機器。
  14. 前記コンピュータに請求項1-6のいずれか一項に記載の方法を実行させるためのコンピュータ命令が記憶される非一時的コンピュータ可読記憶媒体。
  15. プロセッサによって実行されると請求項1-6のいずれか一項に記載の方法を実現するコンピュータプログラム。
JP2022053429A 2021-06-08 2022-03-29 車載通話方法、装置、電子機器、コンピュータ可読記憶媒体及びコンピュータプログラム Pending JP2022088528A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202110636748.0 2021-06-08
CN202110636748.0A CN113329372B (zh) 2021-06-08 2021-06-08 用于车载通话的方法、装置、设备、介质和产品

Publications (1)

Publication Number Publication Date
JP2022088528A true JP2022088528A (ja) 2022-06-14

Family

ID=77421203

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022053429A Pending JP2022088528A (ja) 2021-06-08 2022-03-29 車載通話方法、装置、電子機器、コンピュータ可読記憶媒体及びコンピュータプログラム

Country Status (5)

Country Link
US (1) US20220284888A1 (ja)
EP (1) EP4040764A3 (ja)
JP (1) JP2022088528A (ja)
KR (1) KR20220045114A (ja)
CN (1) CN113329372B (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114071318B (zh) * 2021-11-12 2023-11-14 阿波罗智联(北京)科技有限公司 语音处理方法、终端设备及车辆
CN114063969A (zh) * 2021-11-15 2022-02-18 阿波罗智联(北京)科技有限公司 音频数据处理方法、装置、设备、存储介质及程序产品

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6198432B2 (ja) * 2013-04-09 2017-09-20 小島プレス工業株式会社 音声認識制御装置
US20180332389A1 (en) * 2016-06-03 2018-11-15 Faraday&Future Inc. Method and apparatus to detect and isolate audio in a vehicle using multiple microphones
WO2018216694A1 (ja) * 2017-05-24 2018-11-29 株式会社トランストロン 車載装置
CN111968642A (zh) * 2020-08-27 2020-11-20 北京百度网讯科技有限公司 语音数据处理方法、装置及智能车辆

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10789041B2 (en) * 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
CN110619873A (zh) * 2019-08-16 2019-12-27 北京小米移动软件有限公司 音频处理方法、装置及存储介质
CN112397065A (zh) * 2020-11-04 2021-02-23 深圳地平线机器人科技有限公司 语音交互方法、装置、计算机可读存储介质及电子设备
CN112634890B (zh) * 2020-12-17 2023-11-24 阿波罗智联(北京)科技有限公司 用于唤醒播放设备的方法、装置、设备以及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6198432B2 (ja) * 2013-04-09 2017-09-20 小島プレス工業株式会社 音声認識制御装置
US20180332389A1 (en) * 2016-06-03 2018-11-15 Faraday&Future Inc. Method and apparatus to detect and isolate audio in a vehicle using multiple microphones
WO2018216694A1 (ja) * 2017-05-24 2018-11-29 株式会社トランストロン 車載装置
CN111968642A (zh) * 2020-08-27 2020-11-20 北京百度网讯科技有限公司 语音数据处理方法、装置及智能车辆

Also Published As

Publication number Publication date
KR20220045114A (ko) 2022-04-12
CN113329372B (zh) 2023-04-28
EP4040764A2 (en) 2022-08-10
CN113329372A (zh) 2021-08-31
EP4040764A3 (en) 2022-12-14
US20220284888A1 (en) 2022-09-08

Similar Documents

Publication Publication Date Title
JP2022088528A (ja) 車載通話方法、装置、電子機器、コンピュータ可読記憶媒体及びコンピュータプログラム
CN109949810A (zh) 一种语音唤醒方法、装置、设备及介质
JP7258083B2 (ja) 車両ベースの音声処理方法、音声プロセッサ、車載プロセッサ
CN111077496B (zh) 一种基于麦克风阵列的语音处理方法、装置及终端设备
CN111343410A (zh) 一种静音提示方法、装置、电子设备及存储介质
CN112634872A (zh) 语音设备唤醒方法及装置
CN115038011A (zh) 一种车辆、控制方法、装置、设备及存储介质
CN114038465B (zh) 语音处理方法、装置和电子设备
CN112863545B (zh) 性能测试方法、装置、电子设备及计算机可读存储介质
US20200279573A1 (en) Speech Enhancement Method and Apparatus
CN111312243B (zh) 设备交互方法和装置
US20170206898A1 (en) Systems and methods for assisting automatic speech recognition
CN115083412B (zh) 语音交互方法及相关装置、电子设备、存储介质
US20240105198A1 (en) Voice processing method, apparatus and system, smart terminal and electronic device
CN112307161B (zh) 用于播放音频的方法和装置
CN114283808A (zh) 多路外呼系统、方法、设备、介质及产品
JP2022028670A (ja) 表示される認識テキストの決定方法、装置、電子機器、コンピュータ可読記憶媒体及びコンピュータプログラム
WO2024098279A1 (en) Automated echo control
CN111145776B (zh) 音频处理方法和装置
US20240129436A1 (en) Automatic engagement analytics in collaboration and conferencing
CN111045635B (zh) 音频处理方法和装置
CN118053446A (zh) 语音处理方法、装置、电子设备及存储介质
WO2024097568A1 (en) Multi-stream processing of single-stream data
CN115240670A (zh) 虚拟对象的控制方法、装置、设备及存储介质
CN114913846A (zh) 识别方法、装置和电子设备

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220329

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230404

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230628

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230926

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20231005

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20240423