JP2021182131A

JP2021182131A - 情報を出力するための方法、装置及びシステム、電子デバイス、コンピュータ可読記憶媒体及びコンピュータプログラム

Info

Publication number: JP2021182131A
Application number: JP2021053715A
Authority: JP
Inventors: ションヨンズオ; Shengyong Zuo; イーバオヤン
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-05-29
Filing date: 2021-03-26
Publication date: 2021-11-25
Anticipated expiration: 2041-03-26
Also published as: KR20210042860A; JP7160454B2; CN111489522A

Abstract

【課題】情報を出力するための方法、装置、システム、電子機器、コンピュータ可読媒体及びプログラムを提供する。【解決手段】方法は、車内の異なる位置にある少なくとも２つのオーディオ収集装置によって、それぞれオーディオデータを収集し、エコー除去を行い、除去された後のデータをそれぞれ少なくとも２つの音声認識エンジンに入力し、少なくとも２人のユーザのテキスト情報を得て、少なくとも２つのオーディオ収集装置の位置及び対応する少なくとも２人のユーザのテキスト情報をサービス側にアップロードし、少なくとも２つのオーディオ収集装置の位置に基づいて、２人のユーザのテキスト情報を予めトレーニングされた深層学習モデルに入力することにより、会話が異常である確率を得て、確率が所定の第１閾値より高い場合、アラームをトリガする。【選択図】図２

Description

本開示の実施例は、自動車用ネットワーク技術の分野に関し、具体的には情報を出力するための方法、装置及びシステム、電子デバイス、コンピュータ可読記憶媒体及びコンピュータプログラムに関する。

現在、オンライン配車の安全事故は頻発し、オンライン配車の基数は大きくて、違法事故は予兆なしに発生し、オンライン配車のプラットフォームの安全技術手段は限られ、重大な遅延性があり、事故の原因となり、被害者が警戒して警察に通報しても、通報の受信が遅れ、対応が難しいという問題がある。

現在、オンライン配車のプラットフォームの事故異常処理メカニズムとは、被害者が事前に脅威を感じたときに、携帯のＡＰＰ側の緊急連絡先や遭難信号を通じて、電話を接続するか、連絡先プラットフォームにメッセージを送信することである。このメカニズムに基づいて、違法行為や犯罪行為が発生した場合、被害者は当時の環境に制約され、携帯電話を正常に使用して救助や警察への通報を行うことができない一方、緊急連絡先が救助電話や情報を受信した後、警察に通報し、且つオンライン予約プラットフォームに連絡して、事故車両の位置情報を取得するには、治安出動を容易にするためにプラットフォームが事故車両の位置と車両の特徴を提供する必要がある。

既存の車載インテリジェントアラームのプランでは、車載システムのカメラをオンにすることにより、前列の人物画像情報を捉え、画像分析によって隠れた危険シーンを検出することにより、インテリジェントアラームの対策を実現する。

しかしながら、既存のインテリジェントアラームシステムは、トリップコンピュータカメラに依存し、まずトリップコンピュータカメラをオンにしてから、人物画像情報を捉えることができるが、危険シーンでは、直ちにカメラをオンにすることは不可能である。カメラをオンにした後、トリップコンピュータのインターフェース全体がカメラ画面になり、察知されやすく、オフにされやすくなり、カメラをオフにした後、アラームシステムは、すぐに無効になる。

本開示の実施例は、情報を出力するための方法、装置及びシステム、電子デバイス、コンピュータ可読記憶媒体及びコンピュータプログラムを提案する。

第１態様において、本開示の実施例は、車内の異なる位置にある少なくとも２つのオーディオ収集装置によって、それぞれオーディオデータを収集することと、収集された少なくとも２ウェイのオーディオデータに対してエコー除去を行うことと、エコー除去された後のデータをそれぞれ少なくとも２つの音声認識エンジンに入力し、音声認識を行うことにより、少なくとも２人のユーザのテキスト情報を得ることと、サービス側が予めトレーニングされた深層学習モデルを通じてテキスト情報の分析を行うために、少なくとも２つのオーディオ収集装置の位置及び対応する少なくとも２人のユーザのテキスト情報をサービス側にアップロードし、分析結果がアラーム条件を満たした場合、アラーム情報を出力することと、を含む情報を出力するための方法に関する。

いくつかの実施例において、当該方法は、エコー除去された後のデータをそれぞれ少なくとも２つの感情認識エンジンに入力し、感情認識を行うことにより、少なくとも２人のユーザの感情情報を得ることと、サービス側が予めトレーニングされた深層学習モデルを通じてテキスト情報および感情の分析を行うために、少なくとも２つのオーディオ収集装置の位置、対応する少なくとも２人のユーザのテキスト情報、及び２人のユーザの感情情報をサービス側にアップロードし、分析結果がアラーム条件を満たした場合、アラーム情報を出力することと、をさらに含む。

第２態様において、本開示の実施例は、車両からアップロードされた少なくとも２つのオーディオ収集装置の位置及び対応する少なくとも２人のユーザのテキスト情報を受信することと、少なくとも２つのオーディオ収集装置の位置に基づいて、２人のユーザのテキスト情報を会話ストリームに構成することと、会話ストリームを予めトレーニングされた深層学習モデルに入力することにより、会話が異常である確率を得ることと、確率が所定の第１閾値より高い場合、アラームをトリガすることと、を含む情報を出力するための方法に関する。

いくつかの実施例において、当該方法は、車両の属性情報および位置情報を取得することと、位置情報に基づいて、車両に最も近い交通警察を検索することと、車両の属性情報および位置情報を交通警察に送信することと、をさらに含む。

いくつかの実施例において、当該方法は、少なくとも２人のユーザの感情情報を受信することと、会話が異常である確率が所定の第２閾値未満であり、乗客の感情情報に恐怖感が含まれる場合、アラームをトリガすることと、をさらに含む。

いくつかの実施例において、当該方法は、車両のオーディオ収集装置の回路接続の切断が検出されたことに応答して、アラームをトリガすることをさらに含む。

いくつかの実施例において、当該方法は、乗客が回答するためのテスト問題を車両に定期的に送信することと、所定の時間内に深層学習モデルによって正常であると判定された応答情報を受信しない場合、アラームをトリガすることと、をさらに含む。

第３態様において、本開示の実施例は、車内の異なる位置にある少なくとも２つのオーディオ収集装置によって、それぞれオーディオデータを収集するように配置されたオーディオ収集ユニットと、収集された少なくとも２ウェイのオーディオデータに対してエコー除去を行うように配置されたエコー除去ユニットと、エコー除去された後のデータをそれぞれ少なくとも２つの音声認識エンジンに入力し、音声認識を行うことにより、少なくとも２人のユーザのテキスト情報を得るように配置された音声認識ユニットと、サービス側が予めトレーニングされた深層学習モデルを通じてテキスト情報の分析を行うために、少なくとも２つのオーディオ収集装置の位置及び対応する少なくとも２人のユーザのテキスト情報をサービス側にアップロードし、分析結果がアラーム条件を満たした場合、アラーム情報を出力するように配置された情報アップロードユニットと、を含む情報を出力するための装置に関する。

いくつかの実施例において、当該装置は、エコー除去された後のデータをそれぞれ少なくとも２つの感情認識エンジンに入力し、感情認識を行うことにより、少なくとも２人のユーザの感情情報を得るように配置された感情認識ユニットをさらに含み、情報アップロードユニットは、さらに、サービス側が予めトレーニングされた深層学習モデルを通じてテキスト情報および感情の分析を行うために、少なくとも２つのオーディオ収集装置の位置、対応する少なくとも２人のユーザのテキスト情報、及び２人のユーザの感情情報をサービス側にアップロードし、分析結果がアラーム条件を満たした場合、アラーム情報を出力するように配置される。

第４態様において、本開示の実施例は、車両からアップロードされた少なくとも２つのオーディオ収集装置の位置及び対応する少なくとも２人のユーザのテキスト情報を受信するように配置された受信ユニットと、少なくとも２つのオーディオ収集装置の位置に基づいて、２人のユーザのテキスト情報を会話ストリームに構成するように配置されたテキストスティッチングユニットと、会話ストリームを予めトレーニングされた深層学習モデルに入力することにより、会話が異常である確率を得るように配置された会話認識ユニットと、確率が所定の第１閾値より高い場合、アラームをトリガするように配置されたアラームユニットと、を含む情報を出力するための装置に関する。

いくつかの実施例において、アラームユニットは、さらに、車両の属性情報および位置情報を取得し、位置情報に基づいて、車両に最も近い交通警察を検索し、車両の属性情報および位置情報を交通警察に送信する、ように配置される。

いくつかの実施例において、受信ユニットは、さらに、少なくとも２人のユーザの感情情報を受信するように配置され、アラームユニットは、さらに、会話が異常である確率が所定の第２閾値未満であり、乗客の感情情報に恐怖感が含まれる場合、アラームをトリガするように配置される。

いくつかの実施例において、アラームユニットは、さらに、車両のオーディオ収集装置の回路接続の切断が検出されたことに応答して、アラームをトリガするように配置される。

いくつかの実施例において、アラームユニットは、さらに、乗客が回答するためのテスト問題を車両に定期的に送信し、所定の時間内に深層学習モデルによって正常であると判定された応答情報を受信しない場合、アラームをトリガする、ように配置される。

第５態様において、本開示の実施例は、車内の異なる位置にある少なくとも２つのオーディオ収集装置によって、それぞれオーディオデータを収集し、収集された少なくとも２ウェイのオーディオデータに対してエコー除去を行い、エコー除去された後のデータをそれぞれ少なくとも２つの音声認識エンジンに入力し、音声認識を行うことにより、少なくとも２人のユーザのテキスト情報を得て、少なくとも２つのオーディオ収集装置の位置及び対応する少なくとも２人のユーザのテキスト情報をサービス側にアップロードするように配置された車両と、車両からアップロードされた少なくとも２つのオーディオ収集装置の位置及び対応する少なくとも２人のユーザのテキスト情報を受信し、少なくとも２つのオーディオ収集装置の位置に基づいて、２人のユーザのテキスト情報を会話ストリームに構成し、会話ストリームを予めトレーニングされた深層学習モデルに入力することにより、会話が異常である確率を得て、確率が所定の第１閾値より高い場合、アラームをトリガするように配置されたサービス側と、を含む情報を出力するためのシステムに関する。

第６態様において、本開示の実施例は、１つ以上のプロセッサと、１つ以上のプログラムが記憶された記憶装置と、を含み、１つ以上のプログラムが１つ以上のプロセッサによって実行されるとき、第１態様および第２態様のいずれかに記載の方法を１つ以上のプロセッサに実現させる情報を出力するための電子機器に関する。

第７態様において、本開示の実施例は、コンピュータプログラムが記憶されたコンピュータ可読媒体であって、コンピュータプログラムがプロセッサによって実行されるとき、第１態様および第２態様のいずれかに記載の方法を実現するコンピュータ可読記憶媒体に関する。

第８態様において、本開示の実施例は、コンピュータプログラムであって、コンピュータプログラムがプロセッサによって実行されると、第１態様および第２態様のいずれかに記載の方法を実現するコンピュータプログラムに関する。

本発明は、主に車載シーンにおける人身安全問題について、効果的なリアルタイム音声監視を行い、車載シーンにおけるユーザの音声会話を監視することにより、ユーザの会話内容を取得し、事前に危険を予測し、且つタイムリーに予防措置を行い、車載移動シーンにおける多くの潜在的な安全問題を解決する。

本開示のその他の特徴、目的および利点をより明確にするために、以下の図面を参照してなされた非限定的な実施例の詳細な説明を参照する。
本開示の一実施例が適用可能な例示的なシステムアーキテクチャ図である。本開示による情報を出力するための方法の一実施例のフローチャートである。本開示による情報を出力するための方法の別の実施例のフローチャートである。本開示による情報を出力するための方法の一応用シーンを示す概略図である。本開示による情報を出力するための装置の一実施例の概略構成図である。本開示による情報を出力するための装置の別の実施例の概略構成図である。本開示の実施例を実現するために適用される電子機器のコンピュータシステムの概略構成図である。

以下、図面及び実施例を参照して本開示についてより詳細に説明する。ここで説明された具体的な実施例は、関連する発明を説明するためだけのものであり、この発明を制限するものではないことを理解できる。なお、説明を容易にするために、図面には関連する発明に関連する部分のみを示している。

なお、矛盾しない場合には、本開示の実施例及び実施例における特徴が互いに組み合わせることができる。以下、図面を参照して、実施例に合わせて本開示を詳細に説明する。

図１には、本開示が適用され得る、情報を出力するための方法又は情報を出力するための装置の実施例の例示的なシステムアーキテクチャ１００が示されている。

図１に示すように、システムアーキテクチャ１００は、車両１０１、ネットワーク１０２およびサーバ１０３を含むことができ、ここで、車両１０１に、オーディオ収集装置１０１１、１０１２、１０１３、１０１４、及びコントローラ１０１５が取り付けられてもよい。当該コントローラ１０１５は、ステップ２０１？２０５を実行することができる。ネットワーク１０２は、車両１０１とサーバ１０３との間に通信リンクの媒体を提供するために使用される。ネットワーク１０１２は、例えば有線、無線通信リンク、または光ファイバケーブルなどの様々な接続タイプを含むことができる。

乗客は、車両１０１を使用してネットワーク１０２を介してサーバ１０３とインタラクティブすることにより、メッセージなどを送受信することができる。車両１０１には、複数のオーディオ収集装置が取り付けられることができる。車両１０１は、音声が検出された後に、ローカルに音声認識を行うことができる。各オーディオ収集装置は、１ウェイのオーディオデータを受信することができ、各ウェイのオーディオデータは、１つの音声認識エンジンによって音声認識され、このようにすると、各オーディオ収集装置は、１人のユーザのテキスト情報に対応する。オーディオ収集装置の位置に基づいて、当該ウェイのオーディオデータに対応するユーザのアイデンティティを確定することができ、例えば、運転位置の付近で収集された音声を音声認識して得られたテキスト情報は、運転手に属する。

車両１０１に取り付けられたオーディオ収集装置の数は、２個に限定されない。３つ以上であってもよい。複数のオーディオ収集装置を取り付ける目的は、主に話し手の位置を認識することにより、運転手が乗客に脅威を与えるかどうかを判断することである。オーディオ収集装置の数は、最大乗車定員数と一致することができる。

サーバ１０３は、様々なサービスを提供するサーバであってもよく、例えば、車両１０１からアップロードされた音声認識結果に対しテキスト分析を提供するアラームサーバである。アラームサーバには、ニューラルネットワークモデルがインストールされ、ユーザのアイデンティティに基づいて受信されたテキスト情報を会話ストリームにスティッチングし、この後、ニューラルネットワークモデルによって会話がアラーム条件を満たすかどうかを判断することができる。アラーム条件を満たした場合、アラームをトリガし、車両の近くの交通警察に当該車両の位置情報と属性情報（ナンバープレート、車種、車主アイデンティティ情報、電話など）を通知する。

なお、サーバは、ハードウェアでもソフトウェアでもよい。サーバがハードウェアである場合、複数のサーバからなる分散型サーバクラスターとして実現されてもよく、単一のサーバとして実現されてもよい。サーバがソフトウェアである場合、複数のソフトウェアまたはソフトウェアモジュール（例えば分散型サービスを提供するための複数のソフトウェアまたはソフトウェアモジュール）として実現されてもよく、単一のソフトウェアまたはソフトウェアモジュールとして実現されてもよい。ここで、具体的に限定しない。

なお、本開示の実施例による情報を出力するための方法は、一般的に車両１０１とサーバ１０３によって実行されてもよく、これに対応して、情報を出力するための装置は、一般的に車両１０１とサーバ１０３に配置される。１台のサーバは、複数の車に対してサービスを提供することができ、それらはアラームシステムを構成する。

図１の端末機器、車両、ネットワーク、およびサーバの数は単なる例示であることを理解すべきである。必要に応じて、任意の数の車両、ネットワーク、およびサーバを備えることができる。

続けて図２を参照すると、本発明による情報を出力するための方法の一実施例のフロー２００が示されている。当該情報を出力するための方法は、車両に適用され、以下のステップを含む。

ステップ２０１において、車内の異なる位置にある少なくとも２つのオーディオ収集装置によって、それぞれオーディオデータを収集する。

本実施例において、情報を出力するための方法の実行主体（例えば図１に示された車両）は、車内の異なる位置にある少なくとも２つのオーディオ収集装置によって、それぞれオーディオデータを収集する。オーディオ収集装置は、マイク、ピックアップ、テープレコーダーなどのオーディオを収集するための装置を含むことができる。各オーディオ収集装置は、１ウェイのデータを収集する。オーディオ収集装置は、座席の横に取り付けられ、当該座席に座ったユーザの音声を収集できる。オーディオ収集装置の位置から、収集されたオーディオデータがどのユーザに属するかを判断することができる。２つのオーディオ収集装置のうちの１つは、運転手が使用するオーディオ収集装置である。他のオーディオ収集装置は、乗客に使用される。一般的に、図１に示すように、４つのオーディオ収集装置を配置することができる。

ステップ２０２において、収集された少なくとも２ウェイのオーディオデータに対してエコー除去を行う。

本実施例において、エコー除去（ＡｃｏｕｓｔｉｃＥｃｈｏＣａｎｃｅｌｌａｔｉｏｎ、ＡＥＣ）の問題に対して、今最も人気のあるアルゴリズムは、適応フィルタに基づくエコー除去アルゴリズムである。異なる適応フィルタアルゴリズムを使用してフィルタの重みベクトルを調整し、近似的なエコー経路を推定し実際のエコー経路に近似することにより、推定されたエコー信号を得て、純粋な音声とエコーとの混合信号からこの信号を除去してエコーの除去を実現した。

ステップ２０３において、エコー除去された後のデータをそれぞれ少なくとも２つの音声認識エンジンに入力し、音声認識を行うことにより、少なくとも２人のユーザのテキスト情報を得る。

本実施例において、各オーディオ収集装置は、１つの音声認識エンジンに対応する。音声認識エンジンは、音声認識技術を採用し、自動音声認識ＡｕｔｏｍａｔｉｃＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎ（ＡＳＲ）とも呼ばれ、その目標は、人間の音声における語彙の内容を、例えばボタン、バイナリコード、または文字シーケンスなどのコンピュータ読み取り可能な入力に変換することである。本開示の解決策では、音声認識は、ウェイクアップなしで開始される。

ステップ２０４において、サービス側が予めトレーニングされた深層学習モデルを通じてテキスト情報の分析を行うために、少なくとも２つのオーディオ収集装置の位置及び対応する少なくとも２人のユーザのテキスト情報をサービス側にアップロードし、分析結果がアラーム条件を満たした場合、アラーム情報を出力する。

本実施例において、音声の終点が検出された後、テキスト情報の認識を開始して、サービス側にアップロードしてもよいし、音声認識をリアルタイムで行って、認識結果をリアルタイムでアップロードしてもよい。各ユーザのオーディオデータの音声認識結果は、それぞれ異なる送信装置によってアップロードされてもよいし、１つの送信装置を共有して、複数のユーザのテキスト情報を１つのパッケージにしてアップロードしてもよい。リソースを節約するために、異なるユーザのテキスト情報を時間別に報告することもできる。報告されたテキスト情報は、オーディオ収集装置の位置標識を携帯し、サービス側は、これを利用して、受信されたテキスト情報が誰の話であるかを判断できる。テキスト情報を時間別に報告する際にリソースが衝突する場合、乗客のテキスト情報を優先的に報告し、次に運転手のテキスト情報を報告することができる。時間別に報告する場合、タイムスタンプを付与することにより、会話の時系列を区別する必要がある。

テキスト情報がサービス側に報告された後、サービス側は、予めトレーニングされた深層学習モデルを通じてテキスト情報の分析を行い、分析結果がアラーム条件を満たした場合、アラーム情報を出力する。

本実施例のいくつかの選択可能な実施形態において、当該方法は、エコー除去された後のデータをそれぞれ少なくとも２つの感情認識エンジンに入力し、感情認識を行うことにより、少なくとも２人のユーザの感情情報を得ることと、サービス側が予めトレーニングされた深層学習モデルを通じてテキスト情報および感情の分析を行うために、少なくとも２つのオーディオ収集装置の位置、対応する少なくとも２人のユーザのテキスト情報、及び２人のユーザの感情情報をサービス側にアップロードし、分析結果がアラーム条件を満たした場合、アラーム情報を出力することと、をさらに含む。感情認識エンジンは、ニューラルネットワークの分類器であってもよく、音声の特徴を抽出することにより、例えば緊張、恐怖、喜び、悲しみなどのユーザの感情を判断し、通常、恐怖を感じたユーザの音声が震える。トレーニングプロセスを簡単にするために、二次分類器を使用して、ユーザの感情が恐怖である確率を認識すればよい。トレーニングの際に、恐怖を感じたユーザの音声を正のサンプルとしてトレーニングを行う。

乗客が運転手の要求に従って正常に会話するように脅迫された場合、音声で認識されたテキスト情報が異常であるかどうかを判断することができない。感情情報を認識することは、音声認識されたテキスト情報がユーザの精神状態を表現できないことを補うためである。テキスト情報が正常であるが、乗客の感情が異常である場合、運転手は乗客を脅迫して正常な会話をして、音声監視を誤らせる可能性が高い。

さらに図３を参照して、情報を出力するための方法の別の実施例のフロー３００が示されている。当該情報を出力するための方法のフロー３００は、サービス側に適用され、以下のステップを含む。

ステップ３０１において、車両からアップロードされた少なくとも２つのオーディオ収集装置の位置及び対応する少なくとも２人のユーザのテキスト情報を受信する。

本実施例において、情報を出力するための方法の実行主体（例えば図１に示されたサービス側）は、無線接続を介して車両からアップロードされた少なくとも２つのオーディオ収集装置の位置及び対応する少なくとも２人のユーザのテキスト情報を受信する。

ステップ３０２において、少なくとも２つのオーディオ収集装置の位置に基づいて、２人のユーザのテキスト情報を会話ストリームに構成する。

本実施例において、受信されたテキスト情報に対応する位置に基づいて、テキスト情報が属するユーザを区別することができる。次に、テキスト情報を受信した時間に基づいて、異なるユーザの話を完全な対話にスティッチングする。車両がテキスト情報を時間別に報告する場合、タイムスタンプを付与し、サービス側がタイムスタンプに基づいて会話ストリームをスティッチングする。

ステップ３０３において、会話ストリームを予めトレーニングされた深層学習モデルに入力することにより、会話が異常である確率を得る。

本実施例において、過去の事件の会話情報をトレーニングサンプルとして使用して当該深層学習モデルをトレーニングすることができる。過去の事件には、運転手と被害者との会話記録（運転手を逮捕した後の尋問記録）が記録され、これを正のサンプルとして監督トレーニングを行う。トレーニングによって得られた深層学習モデルは、入力された会話ストリームに基づいて会話が異常である確率を得ることができる。

ステップ３０４において、確率が所定の第１閾値より高い場合、アラームをトリガする。

本実施例において、会話が異常である確率が所定の第１閾値より高い場合、アラームをトリガする。アラームをトリガするプロセスは、１１０番をかけて、疑わしい車両の位置および属性情報（車種、色、所有者情報など）を通報することを含む。位置情報に基づいて、車両に最も近い交通警察を検索し、車両の属性情報および位置情報を交通警察に送信することができる。

本実施例のいくつかの選択可能な実施形態において、当該方法は、少なくとも２人のユーザの感情情報を受信することと、会話が異常である確率が所定の第２閾値未満であり、乗客の感情情報に恐怖感が含まれる場合、アラームをトリガすることと、をさらに含む。オーディオ収集装置の位置に応じて、受信された音声が運転手のものであるか乗客のものであるかを確定することができ、この結果、少なくとも２人のユーザの感情情報のうちのどの感情情報が乗客のものであるかを認識することができる。感情情報には、恐怖感、緊張感、高揚感などが含まれることができる。感情情報によって、受信されたテキスト情報をさらに検証してもよい。テキスト情報に問題はないが、乗客が運転手に脅迫された可能性を排除できないので、音声の特徴から乗客の感情が正常であるかどうかを判断する必要があり、恐怖にもかかわらず、会話が完璧にできれば、非常に疑わしいので警察に通報する必要がある。第２閾値は、第１閾値以下であってもよい。

本実施例のいくつかの選択可能な実施形態において、当該方法は、車両のオーディオ収集装置の回路接続の切断が検出されたことに応答して、アラームをトリガすることをさらに含む。オーディオ収集装置の回路の切断とは、オーディオ収集装置が取り外されていることを意味する。本開示が正常に動作することができる前提条件は、オーディオ収集装置が正常に使用されることである。したがって、運転手に取り外されることを防ぐために、オーディオ収集装置をいくつかの検査を行う必要がある。運営者からの許可を得ていない場合、オーディオ収集装置を取り外すと、警察に通報する。

本実施例のいくつかの選択可能な実施形態において、当該方法は、乗客が回答するためのテスト問題を車両に定期的に送信することと、所定の時間内に深層学習モデルによって正常であると判定された応答情報を受信しない場合、アラームをトリガすることと、をさらに含む。車内の会話をずっと傍受していない場合、乗客が話したくないのか、それとも運転手が乗客に話しにくいようにさせているのかを判断できないので、テスト問題を定期的に送信して乗客に答えさせ、乗客が安全かどうかを確認する必要がある。乗客が一定の時間内で応答しなかったり、応答後に音声認識で解析した結果が深層学習モデルによって異常と判断された場合、アラームをトリガする。

続けて図４を参照すると、図４は、本実施例による情報を出力するための方法の応用シーンを示す概略図である。図４の応用シーンにおいて、乗客は、乗車後に運転手の後ろに座って、彼に最も近いオーディオ収集装置によって乗客の音声を収集する。運転手の隣のオーディオ収集装置によって運転手の音声を収集する。次に、２人の音声は、それぞれ音声認識エンジンによって認識され、２つのテキスト情報を得る。車両は、この２つのテキスト情報をサービス側に送信する。サービス側は、オーディオ収集装置の位置に基づいて、どのテキスト情報が運転手によって話されたか、どのテキスト情報が乗客によって話されたかを確定する。この後、受信された時間に基づいて、２つのテキスト情報を会話にスティッチングする。最後に、会話を予めトレーニングされた深層学習モデルに入力して、会話が異常である確率を判断する。所定の第１閾値より高い場合、アラームをトリガする。

本開示の上記実施例による方法は、以下の利点を備える。

１．車両の安全属性を増やし、車メーカーの安全技術ソリューションを豊富にする。

２．例えばタクシーやオンライン配車などの自動車から派生した輸送サービス業界では、当該ソリューションを搭載した車両が乗客の安全保障を向上させることができる。

３．ユーザの会話内容を検出することにより、トリップコンピュータの関連推薦サービスを最適化し、より興味のあるニュースをユーザに推薦し、より良い内容の文章または製品をユーザに推薦する。

さらに図５を参照して、上記の各図に示された方法の実現として、本発明は情報を出力するための装置の一実施例を提供し、当該装置の実施例は、図２に示す方法実施例に対応し、当該装置は、具体的に様々な電子機器に適用できる。

図５に示すように、本実施例に係る情報を出力するための装置５００は、オーディオ収集ユニット５０１と、エコー除去ユニット５０２と、音声認識ユニット５０３と、情報アップロードユニット５０４とを含む。ここで、オーディオ収集ユニット５０１は、車内の異なる位置にある少なくとも２つのオーディオ収集装置によって、それぞれオーディオデータを収集するように配置される。エコー除去ユニット５０２は、収集された少なくとも２ウェイのオーディオデータに対してエコー除去を行うように配置される。音声認識ユニット５０３は、エコー除去された後のデータをそれぞれ少なくとも２つの音声認識エンジンに入力し、音声認識を行うことにより、少なくとも２人のユーザのテキスト情報を得るように配置される。情報アップロードユニット５０４は、サービス側が予めトレーニングされた深層学習モデルを通じてテキスト情報の分析を行うために、少なくとも２つのオーディオ収集装置の位置及び対応する少なくとも２人のユーザのテキスト情報をサービス側にアップロードし、分析結果がアラーム条件を満たした場合、アラーム情報を出力するように配置される。

本実施例において、情報を出力するための装置５００のオーディオ収集ユニット５０１、エコー除去ユニット５０２、音声認識ユニット５０３及び情報アップロードユニット５０４の具体的な処理について、図２の対応する実施例におけるステップ２０１、ステップ２０２、ステップ２０３およびステップ２０４を参照することができる。

本実施例のいくつかの選択可能な実施形態において、装置５００は、エコー除去された後のデータをそれぞれ少なくとも２つの感情認識エンジンに入力し、感情認識を行うことにより、少なくとも２人のユーザの感情情報を得るように配置された感情認識ユニットをさらに含み、情報アップロードユニットは、さらに、サービス側が予めトレーニングされた深層学習モデルを通じてテキスト情報および感情の分析を行うために、少なくとも２つのオーディオ収集装置の位置、対応する少なくとも２人のユーザのテキスト情報、及び２人のユーザの感情情報をサービス側にアップロードし、分析結果がアラーム条件を満たした場合、アラーム情報を出力するように配置される。

さらに図６を参照して、上記の各図に示された方法の実現として、本発明は情報を出力するための装置の一実施例を提供し、当該装置の実施例は、図３に示す方法実施例に対応し、当該装置は、具体的に様々な電子機器に適用できる。

図６に示すように、本実施例に係る情報を出力するための装置６００は、受信ユニット６０１と、テキストスティッチングユニット６０２と、会話認識ユニット６０３と、アラームユニット６０４とを含む。ここで、受信ユニット６０１は、車両からアップロードされた少なくとも２つのオーディオ収集装置の位置及び対応する少なくとも２人のユーザのテキスト情報を受信するように配置される。テキストスティッチングユニット６０２は、少なくとも２つのオーディオ収集装置の位置に基づいて、２人のユーザのテキスト情報を会話ストリームに構成するように配置される。会話認識ユニット６０３は、会話ストリームを予めトレーニングされた深層学習モデルに入力することにより、会話が異常である確率を得るように配置される。アラームユニット６０４は、確率が所定の第１閾値より高い場合、アラームをトリガするように配置される。

本実施例において、情報を出力するための装置６００の受信ユニット６０１、テキストスティッチングユニット６０２、会話認識ユニット６０３及びアラームユニット６０４の具体的な処理について、図２の対応する実施例におけるステップ２０１、ステップ２０２、ステップ２０３およびステップ２０４を参照することができる。

本実施例のいくつかの選択可能な実施形態において、アラームユニット６０４は、さらに、車両の属性情報および位置情報を取得し、位置情報に基づいて、車両に最も近い交通警察を検索し、車両の属性情報および位置情報を交通警察に送信する、ように配置される。

本実施例のいくつかの選択可能な実施形態において、受信ユニット６０１は、さらに、少なくとも２人のユーザの感情情報を受信するように配置され、アラームユニット６０４は、さらに、会話が異常である確率が所定の第２閾値未満であり、乗客の感情情報に恐怖感が含まれる場合、アラームをトリガするように配置される。

本実施例のいくつかの選択可能な実施形態において、アラームユニット６０４は、さらに、車両のオーディオ収集装置の回路接続の切断が検出されたことに応答して、アラームをトリガするように配置される。

本実施例のいくつかの選択可能な実施形態において、アラームユニット６０４は、さらに、乗客が回答するためのテスト問題を車両に定期的に送信し、所定の時間内に深層学習モデルによって正常であると判定された応答情報を受信しない場合、アラームをトリガする、ように配置される。

以下、図７を参照して、本開示の実施例を実現するために適用される電子機器（例えば図１におけるサーバまたは車両コントローラ）７００の概略構成図が示されている。図７に示された車両コントローラ／サーバは、一例に過ぎず、本開示の実施例の機能および使用範囲を制限しない。

図７に示すように、電子機器７００は、読み出し専用メモリ（ＲＯＭ）７０２に記憶されているプログラムまたは記憶部７０８からランダムアクセスメモリ（ＲＡＭ）７０３にロードされたプログラムに従って各種の適切な動作と処理を行うことができる処理装置（例えば中央処理装置、グラフィックスプロセッサなど）７０１を含むことができる。ＲＡＭ７０３には、電子機器７００の操作に必要な様々なプログラムとデータが記憶されている。処理装置７０１、ＲＯＭ７０２、およびＲＡＭ７０３は、バス７０４によって相互に接続されている。入力／出力（Ｉ／Ｏ）インターフェース７０５もバス７０４に接続されている。

通常、Ｉ／Ｏインターフェース７０５には、例えばタッチスクリーン、タッチパネル、キーボード、マウス、カメラ、オーディオ収集装置、加速度計、ジャイロなどを含む入力装置７０６と、例えば液晶ディスプレイ（ＬＣＤ）、スピーカー、振動器などを含む出力装置７０７と、例えば磁気テープ、ハードディスクなどを含む記憶装置７０８と、通信装置７０９とが接続されている。通信装置７０９は、データを交換するために電子機器７００が他の機器と無線通信または有線通信することを許可できる。図７は、様々な装置を有する電子機器７００を示しているが、図示されたすべての装置を実施または備えることが要求されないことを理解されたい。代わりに、より多くまたはより少ない装置を実施または備えることができる。図７に示した各ブロックは、１つの装置を表してもよく、必要に応じて複数の装置を表してもよい。

特に、本開示の実施例によると、上記のフローチャートを参照して説明されたプロセスは、コンピュータソフトウェアのプログラムとして実現されることができる。例えば、本開示の実施例は、コンピュータ可読媒体に担持されたコンピュータプログラムを含むコンピュータプログラム製品を含み、当該コンピュータプログラムは、フローチャートに示された方法を実行するためのプログラムコードを含む。このような実施例では、このコンピュータプログラムは、通信装置７０９を介してネットワークからダウンロードされてインストールされ、または記憶装置７０８からインストールされ、またはＲＯＭ７０２からインストールされることができる。このコンピュータプログラムが処理装置７０１によって実行されるときに、本開示の実施例の方法で限定された上記の機能を実行する。なお、本開示の実施例に記載のコンピュータ可読媒体は、コンピュータ可読信号媒体、あるいはコンピュータ可読記憶媒体、または上記の両方の任意の組合せであってもよい。コンピュータ可読記憶媒体は、例えば、電気、磁気、光、電磁気、赤外線、あるいは半導体のシステム、装置またはデバイス、あるいは上記の任意の組合せであってもよいが、これらに限らない。コンピュータ可読記憶媒体のより具体的な例には、１本以上のワイヤによる電気的接続、携帯型コンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読み出し専用メモリ（ＲＯＭ）、消去可能プログラマブル読み取り専用メモリ（ＥＰＲＯＭまたはフラッシュメモリ）、光ファイバ、コンパクトディスク読み取り専用メモリ（ＣＤ−ＲＯＭ）、光記憶装置、磁気記憶装置、または上記の任意の組み合わせが含まれるが、これらに限らない。本開示の実施例では、コンピュータ可読記憶媒体は、プログラムを含むかまたは記憶する任意の有形の媒体であることができ、このプログラムは、指令実行システム、装置またはデバイスによって使用され、またはそれらと組み合わせて使用されることができる。本開示の実施例では、コンピュータが読み取り可能な信号媒体は、コンピュータが読み取り可能なプログラムコードを担持した、ベースバンド内でまたは搬送波の一部として伝播されるデータ信号を含んでもよい。このような伝播されたデータ信号は、多種の形式を採用でき、電磁気信号、光信号、または上記の任意の適切な組み合わせを含むが、これらに限らない。コンピュータが読み取り可能な信号媒体は、コンピュータ可読記憶媒体以外のいかなるコンピュータ可読媒体であってもよく、このコンピュータ可読信号媒体は、指令実行システム、装置またはデバイスによって使用され、またはそれらと組み合わせて使用されるためのプログラムを送信、伝播または伝送することができる。コンピュータ可読媒体に含まれるプログラムコードは、任意の適切な媒体で伝送されることができ、ワイヤ、光ファイバケーブル、ＲＦ（無線周波数）など、または上記の任意の適切な組み合わせを含むが、これらに限らない。

上記コンピュータ可読媒体は、上記電子機器に含まれてもよく、個別に存在しこの電子機器に組み込まれなくてもよい。上記のコンピュータ可読媒体は、１つ以上のプログラムを担持し、上記の１つ以上のプログラムが当該電子機器によって実行されたとき、当該電子機器は、車内の異なる位置にある少なくとも２つのオーディオ収集装置によって、それぞれオーディオデータを収集し、収集された少なくとも２ウェイのオーディオデータに対してエコー除去を行い、エコー除去された後のデータをそれぞれ少なくとも２つの音声認識エンジンに入力し、音声認識を行うことにより、少なくとも２人のユーザのテキスト情報を得て、サービス側が予めトレーニングされた深層学習モデルを通じてテキスト情報の分析を行うために、少なくとも２つのオーディオ収集装置の位置及び対応する少なくとも２人のユーザのテキスト情報をサービス側にアップロードし、分析結果がアラーム条件を満たした場合、アラーム情報を出力する。または、当該電子機器は、車両からアップロードされた少なくとも２つのオーディオ収集装置の位置及び対応する少なくとも２人のユーザのテキスト情報を受信し、少なくとも２つのオーディオ収集装置の位置に基づいて、２人のユーザのテキスト情報を会話ストリームに構成し、会話ストリームを予めトレーニングされた深層学習モデルに入力することにより、会話が異常である確率を得て、確率が所定の第１閾値より高い場合、アラームをトリガする。

本開示の実施例の操作を実行するためのコンピュータプログラムコードを、１以上のプログラミング言語またはそれらの組み合わせで書くことができ、前記プログラミング言語には、Ｊａｖａ（登録商標）、Ｓｍａｌｌｔａｌｋ（登録商標）、Ｃ＋＋などのオブジェクト指向プログラミング言語を含み、さらに「Ｃ」言語または同様のプログラミング言語などの従来の手続き型プログラミング言語も含まれる。プログラムコードは、完全にユーザのコンピュータ上で、部分的にユーザのコンピュータ上、１つの単独のソフトウェアパッケージとして、部分的にユーザのコンピュータ上かつ部分的にリモートコンピュータ上で、あるいは完全に遠隔コンピュータまたはサーバ上で実行されることができる。遠隔コンピュータに関する場合には、遠隔コンピュータは、ローカルエリアネットワーク（ＬＡＮ）または広域ネットワーク（ＷＡＮ）を含む任意の種類のネットワークを介してユーザのコンピュータに接続されることができ、または、外部のコンピュータに接続されることができる（例えばインターネットサービスプロバイダを利用してインターネットを介して接続する）。

図の中のフローチャートおよびブロック図には、本開示の様々な実施例によるシステム、方法とコンピュータプログラム製品の実現可能なアーキテクチャ、機能、および操作が示されている。この点で、フローチャート又はブロック図の各ブロックは、１つのモジュール、プログラミングのセグメント、またはコードの一部を代表でき、当該モジュール、プログラミングのセグメント、またはコードの一部は、所定のロジック機能を実現するための１つ以上の実行可能指令を含む。また、いくつかの代替の実施例では、ブロックに示されている機能は、図面に示された順序と異なる順序で発生してもよいことに留意されたい。例えば、連続して示す２つのブロックは実際に並行して実行されてもよく、それらは係る機能に応じて時に逆の順序で実行されてもよい。ブロック図および／またはフローチャートの各ブロック、およびブロック図および／またはフローチャートのブロックの組み合わせは、特定の機能または操作を実行する専用のハードウェアによるシステムによって実現されてもよく、または専用ハードウェアとコンピュータ指令の組み合わせによって実現されてもよいことにも留意されたい。

本開示の実施例に係るユニットは、ソフトウェアによって実現されてもよく、ハードウェアによって実現されてもよい。説明されたユニットは、プロセッサに設置されてもよく、例えば、「オーディオ収集ユニットと、エコー除去ユニットと、音声認識ユニットと、情報アップロードユニットとを含むプロセッサである」と記載してもよい。ここで、これらのユニットの名は、ある場合にはそのユニット自体を限定しなくて、例えば、オーディオ収集ユニットを「車内の異なる位置にある少なくとも２つのオーディオ収集装置によって、それぞれオーディオデータを収集するユニット」と記載してもよい。

上記の説明は、本開示の好ましい実施例および応用された技術の原理の説明にすぎない。本開示の実施例に係る発明の範囲が、上記の技術的特徴を組み合わせて得られた技術案に限定されず、同時に上記の発明の概念から逸脱しない場合に、上記の技術的特徴またはこれと同等の技術的特徴を任意に組み合わせて得られた他の技術案を含むべきであることを当業者は理解すべきである。例えば、上記の特徴が本開示において開示されているもの（しかしこれに限らず）と類似した機能を有する技術的特徴と相互に入れ替わって形成された技術案が挙げられる。

Claims

車内の異なる位置にある少なくとも２つのオーディオ収集装置によって、それぞれオーディオデータを収集することと、
収集された少なくとも２ウェイのオーディオデータに対してエコー除去を行うことと、
エコー除去された後のデータをそれぞれ少なくとも２つの音声認識エンジンに入力し、音声認識を行うことにより、少なくとも２人のユーザのテキスト情報を得ることと、
サービス側が予めトレーニングされた深層学習モデルを通じてテキスト情報の分析を行うために、前記少なくとも２つのオーディオ収集装置の位置及び対応する少なくとも２人のユーザのテキスト情報をサービス側にアップロードし、分析結果がアラーム条件を満たした場合、アラーム情報を出力することと、
を含む情報を出力するための方法。
エコー除去された後のデータをそれぞれ少なくとも２つの感情認識エンジンに入力し、感情認識を行うことにより、少なくとも２人のユーザの感情情報を得ることと、
サービス側が予めトレーニングされた深層学習モデルを通じてテキスト情報および感情の分析を行うために、前記少なくとも２つのオーディオ収集装置の位置、対応する少なくとも２人のユーザのテキスト情報、及び２人のユーザの感情情報をサービス側にアップロードし、分析結果がアラーム条件を満たした場合、アラーム情報を出力することと、
をさらに含む請求項１に記載の方法。
車両からアップロードされた少なくとも２つのオーディオ収集装置の位置及び対応する少なくとも２人のユーザのテキスト情報を受信することと、
前記少なくとも２つのオーディオ収集装置の位置に基づいて、２人のユーザのテキスト情報を会話ストリームに構成することと、
前記会話ストリームを予めトレーニングされた深層学習モデルに入力することにより、会話が異常である確率を得ることと、
前記確率が所定の第１閾値より高い場合、アラームをトリガすることと、
を含む情報を出力するための方法。
前記車両の属性情報および位置情報を取得することと、
前記位置情報に基づいて、前記車両に最も近い交通警察を検索することと、
前記車両の属性情報および位置情報を前記交通警察に送信することと、
をさらに含む請求項３に記載の方法。
少なくとも２人のユーザの感情情報を受信することと、
会話が異常である確率が所定の第２閾値未満であり、乗客の感情情報に恐怖感が含まれる場合、アラームをトリガすることと、
をさらに含む請求項３に記載の方法。
前記車両のオーディオ収集装置の回路接続の切断が検出されたことに応答して、アラームをトリガすること、
をさらに含む請求項３に記載の方法。
乗客が回答するためのテスト問題を前記車両に定期的に送信することと、
所定の時間内に前記深層学習モデルによって正常であると判定された応答情報を受信しない場合、アラームをトリガすることと、
をさらに含む請求項３に記載の方法。
車内の異なる位置にある少なくとも２つのオーディオ収集装置によって、それぞれオーディオデータを収集するように配置されたオーディオ収集ユニットと、
収集された少なくとも２ウェイのオーディオデータに対してエコー除去を行うように配置されたエコー除去ユニットと、
エコー除去された後のデータをそれぞれ少なくとも２つの音声認識エンジンに入力し、音声認識を行うことにより、少なくとも２人のユーザのテキスト情報を得るように配置された音声認識ユニットと、
サービス側が予めトレーニングされた深層学習モデルを通じてテキスト情報の分析を行うために、前記少なくとも２つのオーディオ収集装置の位置及び対応する少なくとも２人のユーザのテキスト情報をサービス側にアップロードし、分析結果がアラーム条件を満たした場合、アラーム情報を出力するように配置された情報アップロードユニットと、
を含む情報を出力するための装置。
エコー除去された後のデータをそれぞれ少なくとも２つの感情認識エンジンに入力し、感情認識を行うことにより、少なくとも２人のユーザの感情情報を得るように配置された感情認識ユニットをさらに含み、
前記情報アップロードユニットは、さらに、サービス側が予めトレーニングされた深層学習モデルを通じてテキスト情報および感情の分析を行うために、前記少なくとも２つのオーディオ収集装置の位置、対応する少なくとも２人のユーザのテキスト情報、及び２人のユーザの感情情報をサービス側にアップロードし、分析結果がアラーム条件を満たした場合、アラーム情報を出力するように配置される、
請求項８に記載の装置。
車両からアップロードされた少なくとも２つのオーディオ収集装置の位置及び対応する少なくとも２人のユーザのテキスト情報を受信するように配置された受信ユニットと、
前記少なくとも２つのオーディオ収集装置の位置に基づいて、２人のユーザのテキスト情報を会話ストリームに構成するように配置されたテキストスティッチングユニットと、
前記会話ストリームを予めトレーニングされた深層学習モデルに入力することにより、会話が異常である確率を得るように配置された会話認識ユニットと、
前記確率が所定の第１閾値より高い場合、アラームをトリガするように配置されたアラームユニットと、
を含む情報を出力するための装置。
前記アラームユニットは、さらに、
前記車両の属性情報および位置情報を取得し、
前記位置情報に基づいて、前記車両に最も近い交通警察を検索し、
前記車両の属性情報および位置情報を前記交通警察に送信する、
ように配置される、
請求項１０に記載の装置。
前記受信ユニットは、さらに、少なくとも２人のユーザの感情情報を受信するように配置され、
前記アラームユニットは、さらに、会話が異常である確率が所定の第２閾値未満であり、乗客の感情情報に恐怖感が含まれる場合、アラームをトリガするように配置される、
請求項１０に記載の装置。
前記アラームユニットは、さらに、前記車両のオーディオ収集装置の回路接続の切断が検出されたことに応答して、アラームをトリガするように配置される、
請求項１０に記載の装置。
前記アラームユニットは、さらに、
乗客が回答するためのテスト問題を前記車両に定期的に送信し、
所定の時間内に前記深層学習モデルによって正常であると判定された応答情報を受信しない場合、アラームをトリガする、
ように配置される、
請求項１０に記載の装置。
車内の異なる位置にある少なくとも２つのオーディオ収集装置によって、それぞれオーディオデータを収集し、収集された少なくとも２ウェイのオーディオデータに対してエコー除去を行い、エコー除去された後のデータをそれぞれ少なくとも２つの音声認識エンジンに入力し、音声認識を行うことにより、少なくとも２人のユーザのテキスト情報を得て、前記少なくとも２つのオーディオ収集装置の位置及び対応する少なくとも２人のユーザのテキスト情報をサービス側にアップロードするように配置された車両と、
車両からアップロードされた少なくとも２つのオーディオ収集装置の位置及び対応する少なくとも２人のユーザのテキスト情報を受信し、前記少なくとも２つのオーディオ収集装置の位置に基づいて、２人のユーザのテキスト情報を会話ストリームに構成し、前記会話ストリームを予めトレーニングされた深層学習モデルに入力することにより、会話が異常である確率を得て、前記確率が所定の第１閾値より高い場合、アラームをトリガするように配置されたサービス側と、
を含む情報を出力するためのシステム。
１つ以上のプロセッサと、
１つ以上のプログラムが記憶された記憶装置と、
を含み、
前記１つ以上のプログラムが前記１つ以上のプロセッサによって実行されるとき、請求項１から７のいずれか１項に記載の方法を前記１つ以上のプロセッサに実現させる、
情報を出力するための電子機器。
コンピュータプログラムが記憶されたコンピュータ可読媒体であって、
前記コンピュータプログラムがプロセッサによって実行されるとき、請求項１から７のいずれか１項に記載の方法を実現する、
コンピュータ可読媒体。
コンピュータプログラムであって、
前記コンピュータプログラムがプロセッサによって実行されると、請求項１から７のいずれか１項に記載の方法を実現する、
コンピュータプログラム。