JP2022037100A

JP2022037100A - 車載機器の音声処理方法、装置、機器及び記憶媒体

Info

Publication number: JP2022037100A
Application number: JP2021202644A
Authority: JP
Inventors: 坤王; Kun Wang; 学▲エン▼ 賀; Xueyan He; 文策何; Wence He
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-12-22
Filing date: 2021-12-14
Publication date: 2022-03-08
Anticipated expiration: 2041-12-14
Also published as: EP3958256A3; EP3958256B1; KR20210098880A; EP3958256A2; US20210343287A1; JP7213943B2; CN112509585A

Abstract

【課題】弱いネットワークシーンでの車載機器の音声処理の正確性を確保すると同時に、音声処理効率を高める音声処理方法、装置、機器及び記憶媒体を提供する。【解決手段】車載機器の音声処理方法は、ユーザ音声を取得することと、ユーザ音声にオフライン認識を行い、オフライン認識テキストを得て、且つユーザ音声をサーバに送信して、ユーザ音声にオンラインの音声認識とセマンティック解析を行うことと、ローカルのテキストデータベースにオフライン認識テキストとマッチングするテキストが存在する場合、オフライン認識テキストを解析し、ユーザ音声のオフライン解析結果を得ることと、オフライン解析結果に基づき、車載機器を制御することと、を含む。【選択図】図２

Description

本願は、人工知能分野における音声技術、カーネットワーキング技術、スマート車両技術に関し、特に、車載機器の音声処理方法、装置、機器及び記憶媒体に関する。

モノのインターネット技術、スマート車両技術、音声技術などの技術の発展につれて、車載機器のスマート化程度が益々高くなり、ひいては音声アシスタントの機能を実現することができる。車載機器は、音声アシスタントの機能を実現する時、ユーザ音声を認識することで、車窓を開けること、車内エアコンをオンにすること、音楽を再生することなどの所定の操作を実行する。

車載機器は、ユーザ音声を認識する時、通常、オフライン音声認識又はオンライン音声認識を採用する。オフライン音声認識の正確度が低く、少数の文型しか認識できず、適用性が高くない。オンライン音声認識の正確度が高いが、車載シーンのネットワーク性能が不安定であり、弱いネットワークシーンになりやすく、弱いネットワークシーンでのオンライン音声認識の効率が高くなく、車載機器の音声応答速度に影響を及ぼす。

如何に弱いネットワークシーンでの車載機器の音声応答速度を高めるかは、早急に解決すべき問題である。

本願は、車載機器の音声処理方法、装置、機器及び記憶媒体を提供する。

本願の第１の態様によれば、車載機器の音声処理方法を提供し、ユーザ音声を取得することと、前記ユーザ音声にオフライン認識を行い、オフライン認識テキストを得て、且つ前記ユーザ音声をサーバに送信して、前記ユーザ音声にオンラインの音声認識とセマンティック解析を行うことと、ローカルのテキストデータベースに前記オフライン認識テキストとマッチングするテキストが存在する場合、前記オフライン認識テキストを解析し、前記ユーザ音声のオフライン解析結果を得ることと、前記オフライン解析結果に基づき、車載機器を制御することと、を含む。

本願の第２の態様によれば、車載機器の音声処理装置を提供し、ユーザ音声を取得するための取得ユニットと、前記ユーザ音声にオフライン認識を行い、オフライン認識テキストを得て、且つ前記ユーザ音声をサーバに送信して、前記ユーザ音声にオンラインの音声認識とセマンティック解析を行うための認識ユニットと、テキストデータベースに前記オフライン認識テキストとマッチングするテキストが存在する場合、前記オフライン認識テキストを解析し、前記ユーザ音声のオフライン解析結果を得るための解析ユニットと、前記オフライン解析結果に基づき、車載機器を制御するための制御ユニットと、を含む。

本願の第３の態様によれば、電子機器を提供し、少なくとも１つのプロセッサと、前記少なくとも１つのプロセッサに通信可能に接続されるメモリと、を含み、前記メモリには、前記少なくとも１つのプロセッサにより実行可能な命令が記憶されており、前記命令は、前記少なくとも１つのプロセッサが第１の態様に記載の方法を実行できるように、前記少なくとも１つのプロセッサにより実行される。

本願の第４の態様によれば、コンピュータ命令が記憶された非一時的なコンピュータ読み取り可能な記憶媒体を提供し、前記コンピュータ命令は、コンピュータに第１の態様に記載の方法を実行させるために用いられる。

本願の第５の態様によれば、コンピュータプログラムを提供し、前記コンピュータプログラムは読み取り可能な記憶媒体に記憶されており、電子機器の少なくとも１つのプロセッサは、前記読み取り可能な記憶媒体から前記コンピュータプログラムを読み取ることができ、前記少なくとも１つのプロセッサは、電子機器に第１の態様に記載の方法を実行させるように、前記コンピュータプログラムを実行する。

本願の第６の態様によれば、車両を提供し、車体を含み、前記車体の中央制御機器は、第３の態様に記載の電子機器を含む。

本願の技術案によれば、ユーザ音声にオフライン認識とオンライン認識を同時に行い、オフライン認識により得られたオフライン認識テキストがローカルのテキストデータベースにある場合、オフライン認識テキストを解析し、オフライン解析結果を得て、オフライン解析結果に基づき、車載機器を制御することで、車載環境で、特に、車両の弱いネットワークシーンで、ユーザ音声処理の正確性を確保し、ユーザ音声に対する処理効率を高め、更に車載機器の音声応答の正確性を確保し、車載機器の音声応答効率を高める。

なお、この部分に記載されている内容は、本願の実施例の肝心な又は重要な特徴を特定することを意図しておらず、本願の範囲を限定するものでもない。本願の他の特徴は、以下の説明を通じて容易に理解される。

図面は、本技術案をよりよく理解するために使用され、本願を限定するものではない。
本願の実施例を実現可能な適用シーンの例示的な図である。本願の第１の実施例による模式図である。本願の第２の実施例による模式図である。本願の第３の実施例による模式図である。本願の第４の実施例による模式図である。本願の第５の実施例による模式図である。本願の第６の実施例による模式図である。本願の第７の実施例による模式図である。本願の実施例の車載機器の音声処理方法を実現するための電子機器のブロック図である。

以下、図面を組み合わせて本願の例示的な実施例を説明する。理解を容易にするために、その中には本願の実施例の様々な細部が含まれており、それらは単なる例示的なものと見なされるべきである。したがって、当業者は、本願の範囲及び精神から逸脱することなく、ここで説明される実施例に対して様々な変更と修正を行うことができる。同様に、わかりやすくかつ簡潔にするために、以下の説明では、周知の機能及び構造の説明を省略する。

車両がインテリジェントになるにつれて、車載機器は、音声アシスタントの機能を実現できる。例えば、車両の中央制御機器に音声アシスタントをインストールすることができ、音声アシスタントはユーザ音声を収集し、認識して解析し、解析結果を得て、中央制御機器は、解析結果に基づいて対応する制御操作を実行することができる。例えば、ユーザ音声が「音楽を再生する」である場合、中央制御機器は、音楽ソフトウェアを開いて音楽を再生し、また、例えば、ユーザ音声が「車窓を開ける」である場合、中央制御機器は、車窓を開けるように制御し、また、例えば、ユーザ音声が「エアコンをオンにする」である場合、中央制御機器は、車内のエアコンをオンにするように制御する。

音声アシスタントによるユーザ音声の認識と解析手段は、通常、オフラインの音声認識とセマンティック解析、及びオンラインの音声認識とセマンティック解析という２種がある。

音声認識は、音声を対応するテキストに認識したり、翻訳したりすることである。

セマンティック解析は、テキストに含まれるセマンティックを解析することである。

セマンティック解析では、近い意味を持つ異なるテキストを解析して、同じ又は近いセマンティックを得ることができ、例えば、「ガソリンスタンドへナビゲートする」と「近くのガソリンスタンドへナビゲートする」のセマンティックはほぼ同じであり、「音楽を聞かせる」と「音楽を再生する」のセマンティックは同じである。したがって、ユーザが異なる言語表現を変更して同一の意味を表す場合に、中央制御機器が同様な操作を実行できるように確保するために、ユーザ音声に音声認識を行った後に、セマンティック解析を行う必要もある。

上記した２つのユーザ音声の認識と解析手段は、以下の利点と欠点が存在している。

（一）オフラインの音声認識とセマンティック解析の効率が高いが、車載機器のコンピューティング能力及び記憶能力に制限されるため、オフラインの音声認識とセマンティック解析の正確性が高くなく、且つ少数の文型しか認識できず、適用性が高くない。

（二）オンラインの音声認識とセマンティック解析は、コンピューティング能力及び記憶能力に優れた機器で行うことができ、正確性が高いが、効率がネットワークに制限されている。

車両は、走行時にトンネル、橋の下などのネットワーク信号強度が弱いエリアを通る場合が多い。ネットワーク信号強度が弱いエリアで、即ち弱いネットワークシーンで、オンラインのセマンティック認識効率が高くなく、ひいては車載機器はユーザ音声に長期間応答できない可能性がある。

本願の実施例は、車載機器の音声処理方法、装置、機器及び記憶媒体を提供し、データ処理分野における音声技術、モノのインターネット技術、スマート車両技術に適用し、車載の弱いネットワークシーンで、車載機器の音声応答の正確性を確保すると同時に、車載機器の音声応答効率を高めることを達成する。

図１は、本願の実施例を実現可能な適用シーンの例示的な図である。図１に示すように、当該適用シーンは、車両１０１、サーバ１０２及び車両１０１内に位置する車載機器１０３を含み、車載機器１０３とサーバ１０２との間は、ネットワーク通信を行うことができる。車載機器１０３は、サーバ１０２においてユーザ音声にオンライン解析を行うように、ユーザ音声をサーバ１０２に送信することができる。

車載機器１０３は、例えば車両１０１の中央制御機器である。又は、車載機器１０３は、例えば車両１０１の中央制御機器と通信する他の電子機器であり、例えば携帯電話、ウェアラブルスマートデバイス、タブレットパソコンなどである。

図２は、本願の第１の実施例による模式図である。図２に示すように、本実施例により提供される車載機器の音声処理方法は、以下のステップを含む。

ステップＳ２０１では、ユーザ音声を取得する。

例示的に、本実施例の実行主体は、図１に示す車載機器である。

一例において、車載機器に音声コレクタが設けられており、車載機器は、音声コレクタを介して車両内のユーザ音声を収集する。音声コレクタは、例えばマイクロホンである。

他の例において、車両に音声コレクタが設けられており、音声コレクタは車載機器と通信することで、車載機器は、音声コレクタより車両内で収集したユーザ音声を受信することができる。

音声コレクタと車載機器とは、有線又は無線で直接又は間接通信を行うことができ、例えば、車載機器が車両の中央制御機器である場合、中央制御機器は、音声コレクタより車両内で収集したユーザ音声を直接受信することができ、車載機器が車両の中央制御機器と通信する他の電子機器である場合、車載機器は、中央制御機器によって転送された音声コレクタより車両内で収集したユーザ音声を受信することができる。

例示的に、ユーザが音声機能を使用する必要がない場合にユーザ音声を取得して、誤認識又は車載機器に対する誤制御の結果を招くことを回避するように、車載機器は、音声ウェークアップ状態でユーザ音声を取得する。

例示的に、ユーザは、例えば音声でウェークアップワードを入力し、又は、例えば車載機器にある物理ボタン又は車載機器のスクリーンにある仮想ボタンを介して、車載機器が音声ウェークアップ状態に入る。

ステップＳ２０２では、ユーザ音声にオフライン認識を行い、オフライン認識テキストを得て、且つユーザ音声をサーバに送信して、ユーザ音声にオンラインの音声認識とセマンティック解析を行う。

車載機器に音声認識モデルが予め配置されており、音声認識モデルは、例えばニューラルネットワークモデルであり、ここで、音声認識モデルに対して制限しない。

具体的には、ユーザ音声を取得した後、音声認識モデルによりユーザ音声にオフライン認識を行い、同時にユーザ音声をサーバに送信し、サーバによりユーザ音声にオンラインの音声認識とセマンティック解析を行うことで、ユーザ音声にオフライン認識とオンライン認識を同時に行う。車載機器がユーザ音声をサーバに送信する速度は、ネットワーク信号強度によって制限され、弱いネットワークシーンで、この速度が高くなく、オンライン認識の効率がオフライン認識の効率より低い。ユーザ音声のオフライン認識とオンライン認識を同時に行う場合、ユーザ音声のオフライン認識テキストを先に取得することになる。

オフライン認識テキストは、単一の単語であってもよいし、複数の単語で構成される１つ又は複数の文であってもよい。例えば、オフライン認識テキストが単一の単語である場合、オフライン認識テキストは「ナビゲート」であり、オフライン認識テキストが単一の文である場合、オフライン認識テキストは「ガソリンスタンドへナビゲートする」であり、オフライン認識テキストが複数の文である場合、オフライン認識テキストは「出発点が場所Ａで、目的地が場所Ｂで、ナビゲートし始める」である。

ステップＳ２０３では、ローカルのテキストデータベースにオフライン認識テキストとマッチングするテキストが存在する場合、オフライン認識テキストを解析し、ユーザ音声のオフライン解析結果を得る。

車載機器にテキストデータベースが予め記憶されており、テキストデータベースは、複数の予め設定されたテキストを含み、テキストデータベースにおけるテキストにオフライン解析を行う時の正確性が高い。ユーザ音声のオフライン解析結果は、オフラインで解析して得られたユーザ音声のセマンティックであると理解することができる。

具体的には、オフライン認識テキストを取得した後、オフライン認識テキストとテキストデータベースにおける複数のテキストにテキストマッチングを行うことができる。例えば、オフライン認識テキストのテキスト特徴、テキストデータベースにおける各テキストのテキスト特徴を抽出し、オフライン認識テキストのテキスト特徴とテキストデータベースにおける各テキストのテキスト特徴をマッチングすることができる。ここで、テキストマッチングプロセスに対して制限しない。

テキストデータベースにオフライン認識テキストとマッチングするテキストが存在する場合、即ち、テキストデータベースにオフライン認識テキストが存在する場合、オフラインでオフライン認識テキストを解析する場合の正確性が高いことを示しているため、車載機器でオフライン認識テキストを解析し、ユーザ音声のオフライン解析結果を得て、ステップＳ２０４を実行する。

ステップＳ２０４では、オフライン解析結果に基づき、車載機器を制御する。

車載機器に複数のセマンティックと制御操作とのマッピング関係が予め設定されている。

例えば、セマンティック「音楽を再生する」に対応する制御操作は、車載機器における音楽再生アプリケーションプログラムを起動して音楽を再生することであり、また、例えば、セマンティック「エアコンを起動する」に対応する制御操作は、車内のエアコンに起動命令を送信することである。

具体的には、オフライン解析結果を得た後、複数のセマンティックと制御操作とのマッピング関係からオフライン解析結果に対応する制御操作を検索して実行することで、車載機器を制御することができる。

オフライン解析結果に基づき、車載機器を直接又は間接制御できることが分かる。例えば、現在の車載機器が中央制御機器である場合、中央制御機器を直接制御して対応するアプリケーションプログラムを開けてもよいし、中央制御機器を直接制御して他の車載機器に制御命令を送信してもよく、エアコン、車窓、ワイパーなどの他の車載機器に対する間接制御を実現する。

本実施例では、ユーザ音声を取得し、ユーザ音声にオフライン認識とオンライン認識を同時に行い、弱いネットワークシーンでオンライン認識の効率がオフライン認識の効率より明らかに低いため、ユーザ音声のオフライン認識テキストを取得することになる。オフライン認識テキストを得た後、ローカルのテキストデータベースにオフライン認識テキストが存在する場合、オフラインのセマンティック解析を採用することができ、且つオフラインのセマンティック解析の正確性が高いことを示しているため、オフライン認識テキストにオフラインのセマンティック解析を行い、ユーザ音声のオフライン解析結果を得る。オフライン解析結果に基づき、車載機器を制御する。

したがって、本実施例は、オフライン認識とオンライン認識を同時に行うとともに、条件に応じてオフライン認識を採用することにより、音声処理の正確性を確保すると同時に、音声処理の効率を高め、更に車載機器の音声応答の正確性を確保すると同時に、車載機器の音声応答効率を高める。

図３は、本願の第２の実施例による模式図である。図３に示すように、本実施例により提供される車載機器の音声処理方法は、以下のステップを含む。

ステップＳ３０１では、ユーザ音声を取得する。

ステップＳ３０２では、ユーザ音声にオフライン認識を行い、オフライン認識テキストを得て、且つユーザ音声をサーバに送信して、ユーザ音声にオンラインの音声認識とセマンティック解析を行う。

ステップＳ３０３では、ローカルのテキストデータベースにオフライン認識テキストとマッチングするテキストが存在するか否かを決定する。

テキストデータベースにオフライン認識テキストとマッチングするテキストが存在する場合、ステップＳ３０４を実行し、オフライン手段を採用してユーザ音声に認識と解析を行う。

テキストデータベースにオフライン認識テキストとマッチングするテキストが存在しない場合、オフライン認識テキストに対するオフライン解析が高い正確性を達成できることを確保できず、ステップＳ３０６を実行し、オンライン手段を採用してユーザ音声に認識と解析を行うことができる。

ステップＳ３０４では、オフライン認識テキストを解析し、ユーザ音声のオフライン解析結果を得る。

ステップＳ３０５では、オフライン解析結果に基づき、車載機器を制御する。

ステップＳ３０１～Ｓ３０５の実現プロセスは、前述した実施例を参照することができ、繰り返して説明しない。

ステップＳ３０６では、サーバから返信されたユーザ音声のオンライン解析結果を待つ。

具体的には、オンライン認識は、少なくとも２回の送受信プロセスを経る必要があり、１つは、車載機器がユーザ音声をサーバに送信することであり、もう１つは、サーバがユーザ音声のオンライン解析結果を車載機器に返信することであり、オフライン認識の場合にこれらの送受信プロセスが存在しない。弱いネットワーク環境で、車載機器とサーバとの間の通信速度が遅いため、オフライン認識してユーザ音声のオフライン認識テキストを得た後、テキストデータベースにオフライン認識テキストとマッチングするテキストが存在しない場合、サーバからユーザ音声のオンライン解析結果を返信するまで待つ必要がある。

例示的に、サーバのコンピューティング性能及び記憶性能が車載機器に優れているため、車載機器に比べて、サーバは、より完全で正確性がより高い音声認識モデル及びセマンティック解析モデルにより、ユーザ音声に認識と解析を行うことで、ユーザ音声の解析正確性を確保することができる。

ステップＳ３０７では、サーバから返信されたオンライン解析結果を受信した後、オンライン解析結果に基づき、車載機器を制御する。

ユーザ音声のオンライン解析結果は、オンライン手段により（即ち、遠隔サーバにより）解析して得られたユーザ音声のセマンティックであると理解することができる。

具体的には、サーバから返信されたオンライン解析結果を待った後、オンライン解析結果に基づき、車載機器を制御し、オンライン解析結果に基づき、車載機器を制御することは、オフライン解析結果に基づき、車載機器を制御するプロセスに類似するため、前述した実施例についての記載を参照することができ、繰り返して説明しない。

本実施例では、ユーザ音声を取得し、ユーザ音声にオフライン認識とオンライン認識を同時に行い、弱いネットワークシーンでオンライン認識の効率がオフライン認識の効率より明らかに低いため、ユーザ音声のオフライン認識テキストを取得することになる。オフライン認識テキストを得た後、ローカルのテキストデータベースにオフライン認識テキストとマッチングするテキストが存在する場合、オフラインのセマンティック解析を採用することができ、且つオフラインのセマンティック解析の正確性が高いことを示しているため、オフライン認識テキストにオフラインのセマンティック解析を行い、ユーザ音声のオフライン解析結果を得て、オフライン解析結果に基づき、車載機器を制御する。

ローカルのテキストデータベースにオフライン認識テキストとマッチングするテキストが存在しない場合、ユーザ音声処理の正確性を確保するために、サーバから返信されたオンライン解析結果を待ち、オンライン解析結果に基づき、車載機器を制御する。

したがって、本実施例は、オフライン認識とオンライン認識を同時に行うとともに、テキストデータベースに基づいてオフライン解析を採用する条件及びオンライン解析を採用する条件を設定することにより、音声処理の正確性を確保すると同時に、音声処理の効率を高め、更に車載機器の音声応答の正確性を確保すると同時に、車載機器の音声応答効率を高める。

図４は、本願の第３の実施例による模式図である。図４に示すように、本実施例により提供される車載機器の音声処理方法は、以下のステップを含む。

ステップＳ４０１では、ユーザ音声を取得する。

ステップＳ４０２では、ユーザ音声にオフライン認識を行い、オフライン認識テキストを得て、且つユーザ音声をサーバに送信して、ユーザ音声にオンラインの音声認識とセマンティック解析を行う。

ステップＳ４０１～Ｓ４０２の実現プロセスは、前述した実施例を参照することができるので、繰り返して説明しない。

ステップＳ４０３では、ローカルのテキストデータベースにオフライン認識テキストとマッチングするテキストが存在する場合、テキストデータベースにおける複数のテキストと解析セマンティックとの予め設定されたマッピング関係から、オフライン認識テキストに関連付けられた解析セマンティックを取得する。

テキストデータベースには、複数のテキストと解析セマンティックとの予め設定されたマッピング関係が含まれ、解析セマンティックとは、セマンティックである。複数のテキストと解析セマンティックとの予め設定されたマッピング関係の中で、複数のテキストは、同一の解析セマンティックに対応してもよく、異なる解析セマンティックに対応してもよい。例えば、テキスト「音楽を再生する」とテキスト「音楽を聞かせる」は、同一の解析セマンティックに対応し、テキスト「エアコンをオンにする」とテキスト「音楽を再生する」は、異なる解析セマンティックに対応する。

具体的には、テキストデータベースにオフライン認識テキストとマッチングするテキストが存在する場合、テキストデータベースにおける複数のテキストと解析セマンティックとの予め設定されたマッピング関係から、オフライン認識テキストとマッチングするテキストに対応する解析セマンティックを取得することができ、オフライン認識テキストとマッチングするテキストに対応する解析セマンティックは、オフライン認識テキストに関連付けられた解析セマンティックであり、オフライン解析の正確性が確保される。

ステップＳ４０４では、オフライン認識テキストに関連付けられた解析セマンティックをオフライン解析結果として決定する。

ステップＳ４０５では、オフライン解析結果に基づき、車載機器を制御する。

ステップＳ４０５の実現プロセスは、前述した実施例を参照することができ、繰り返して説明しない。

本実施例では、ユーザ音声にオフライン認識を行うと同時に、ユーザ音声をサーバに送信することにより、ユーザ音声にオンライン認識とオンライン解析を行う。先にユーザ音声のオフライン認識テキストを取得した後に、ローカルのテキストデータベースにオフライン認識テキストとマッチングするテキストが存在する場合、テキストデータベースにおける複数のテキストと解析セマンティックとのマッピング関係に応じて、オフライン認識テキストに関連付けられたオフライン解析結果を決定し、オフライン手段を採用してオフライン認識テキストを解析する場合の正確性が確保される。更に、オフライン解析結果に基づき、車載機器を制御する。

したがって、本実施例は、オフライン認識とオンライン認識を同時に行うとともに、テキストデータベースにオフライン認識テキストが含まれている場合、複数のテキストと解析セマンティックとのマッピング関係に応じて、オフライン解析結果を決定し、音声処理の正確性を確保すると同時に、音声処理の効率を高め、更に車載機器の音声応答の正確性を確保すると同時に、車載機器の音声応答効率を高める。

図５は、本願の第４の実施例による模式図である。図５に示すように、本実施例により提供される車載機器の音声処理方法は、以下のステップを含む。

ステップＳ５０１では、ユーザ音声を取得する。

ステップＳ５０２では、ユーザ音声にオフライン認識を行い、オフライン認識テキストを得て、且つユーザ音声をサーバに送信して、ユーザ音声にオンラインの音声認識とセマンティック解析を行う。

ステップＳ５０１～Ｓ５０２の実現プロセスは、前述した実施例を参照することができるので、繰り返して説明しない。

ステップＳ５０３では、ローカルのテキストデータベースにオフライン認識テキストとマッチングするテキストが存在する場合、セマンティック解析モデルによりオフライン認識テキストを解析し、オフライン解析結果を得て、セマンティック解析モデルのトレーニングプロセスで採用されたトレーニングデータは、テキストデータベースにおけるテキストを含む。

車載機器にセマンティック解析モデルが予め配置されており、セマンティック解析モデルの入力はテキストであり、出力はテキストのセマンティックである。例えば、セマンティック解析モデルとしては、自然言語処理分野の言語モデルを採用し、ここでセマンティック解析モデルの具体的な構造に対して制限しない。

具体的には、ローカルのテキストデータベースにオフライン認識テキストとマッチングするテキストが存在する場合、ローカルに配置されたセマンティック解析モデルによりオフライン認識テキストを解析し、オフライン認識テキストの解析セマンティック、即ちオフライン認識テキストのオフライン解析結果を得る。

例示的に、車載機器にセマンティック解析モデルを配置する前に、セマンティック解析モデルのセマンティック解析の正確性を高めるように、車載機器又はサーバは、予め収集されたトレーニングデータに基づいてセマンティック解析モデルをトレーニングすることができる。トレーニングデータは、テキストデータベースにおける全てのテキストを含み、トレーニング時に、テキストデータベースにおける全てのテキストに基づいてセマンティック解析モデルをトレーニングし、セマンティック解析モデルによりテキストデータベースにおける各テキストにセマンティック解析を行う場合の正確性が少なくとも保証される。

更に、テキストデータベースにおける全てのテキストに基づいてセマンティック解析モデルをトレーニングした後、またトレーニング後のセマンティック解析モデルによりテキストデータベースにおける全てのテキストを解析し、テキストデータベースにおける、セマンティック解析モデルにより正確に解析できないテキストを、テキストデータベースから削除し、セマンティック解析モデルによりテキストデータベースにおけるテキストを解析する場合の１００％の正確性を確保する。

ステップＳ５０４では、オフライン解析結果に基づき、車載機器を制御する。

ステップＳ５０４の実現プロセスは、前述した実施例を参照することができるので、繰り返して説明しない。

本実施例では、オフライン認識とオンライン認識を同時に行うとともに、テキストデータベースにオフライン認識テキストが含まれている場合、ローカルに配置されたセマンティック解析モデルによりオフライン認識テキストを解析し、セマンティック解析モデルのトレーニングデータは、テキストデータベースにおけるテキストを含む。したがって、テキストデータベースにおけるテキストに対する解析の正確性が高いセマンティック解析モデルにより、オフライン手段によるセマンティック解析の正確性を確保し、音声処理の正確性を確保すると同時に、音声処理の効率を高め、更に車載機器の音声応答の正確性を確保すると同時に、車載機器の音声応答効率を高めることを実現する。

いくつかの実施例において、テキストデータベースは、自動車工場で予め設定されたテキストを含むことができ、例えば自動車工場でいくつかの疑問文、平叙文及び／又はキーワードをテキストデータベースにおけるテキストとして予め設定しており、且つ各テキストに対応するセマンティック及び各セマンティックに対応する操作を設定しておくことができる。したがって、オフライン手段により自動車工場で予め設定されたテキストに認識と解析を正確に行うことができる。

いくつかの実施例において、テキストデータベースは、自動車工場で予め設定されたテキストを含む以外、予め収集されたユーザ履歴データに基づいてテキストデータベースを構築することもでき、このようにテキストデータベースがユーザの音声習慣をカバーし、ユーザが頻繁に使用する音声内容にオフライン認識と解析を正確に行うことができる。

テキストデータベースの構築は、車載機器で行われてもよい。又は、テキストデータベースの構築は、サーバで行われてもよい。サーバでテキストデータベースを構築するプロセスで、更にテキストデータベースにおける複数のテキストと解析セマンティックとのマッピング関係を構築し、複数のテキストと解析セマンティックとのマッピング関係を含むテキストデータベースを車載機器に送信することもでき、又は、サーバは、テキストデータベースに基づいてセマンティック解析モデルをトレーニングし、テキストデータベース及びセマンティック解析モデルを車載機器に送信することができる。

テキストデータベースの構築及びセマンティック解析モデルのトレーニングがサーバで実行される場合を例とし、図６は、本願の第５の実施例による模式図である。図６に示すように、テキストデータベース及びセマンティック解析モデルは、下記プロセスによって得られる。

ステップＳ６０１では、予め収集されたユーザ履歴データを取得する。

車載機器は、ユーザ履歴データを予め収集して記憶し、ユーザ履歴データは、過去の期間でユーザが音声で入力した複数のテキストを含む。過去の期間は、現在の時点の前の期間であり、例えば過去の１か月、過去の半月である。

例示的に、車載機器の記憶スペースが限られているため、車載機器は、ユーザが最近の１か月以内又は最近の一週間以内で入力したユーザ音声に対応するテキストを記録することができるが、最近の１か月以内又は最近の一週間以内を超えたテキストは、削除又は上書きされることができる。

ステップＳ６０２では、ユーザ履歴データをサーバに送信する。

一例において、車載機器は、ユーザ履歴データをサーバに能動的に送信することができ、例えば所定の時間ごとにサーバにユーザ履歴データを一回送信する。

他例において、車載機器がサーバのデータ取得リクエストを受信した後、予め収集されたユーザ履歴データをサーバに送信する。

他例において、サーバ自身が異なる車載機器のユーザ履歴データを収集することができ、例えばオンライン認識時に車載機器から送信されたユーザ音声に対応するテキストを格納する。

ステップＳ６０３では、サーバから返信されたテキストデータベース及びセマンティック解析モデルを受信する。

具体的には、サーバがユーザ履歴データを受信した後、サーバにテキストデータベースが存在しない場合、ユーザ履歴データに基づいてテキストデータベースを構築し、サーバにテキストデータベースが存在する場合、ユーザ履歴データに基づいてテキストデータベースを更新する。サーバは、構築又は更新されたテキストデータベースに基づき、セマンティック解析モデルをトレーニングする。

サーバがテキストデータベースを構築又は更新する際に、１つの可能な実施形態としては、ユーザ履歴データにおける繰り返されるテキストをスクリーニングし、即ち繰り返されるテキストをスクリーニングしてユーザ履歴データから削除し、スクリーニング後のユーザ履歴データの各テキストによりテキストデータベースを構築し、又はスクリーニング後のユーザ履歴データとテキストデータベースとを合わせて、テキストデータベースを更新する。

サーバがテキストデータベースを構築又は更新する際に、もう１つの可能な実施形態としては、ユーザ履歴データにおけるユーザ履歴データでの各テキストの出現頻度又は割合を統計し、ユーザ履歴データにおける各テキストの出現頻度及び／又は割合に応じて、ユーザ履歴データにおける複数のテキストをスクリーニングし、ユーザ履歴データにおけるスクリーニング後のテキストに基づき、テキストデータベースを構築又は更新する。

ユーザ履歴データでの各テキストの出現頻度又は割合を得る時、各テキストの出現頻度又は割合の高から低まで順に各テキストをランキングし、その中から出現頻度が第１の閾値以上であるテキスト及び／又は割合が第２の閾値以上であるテキストを取得することができる。

したがって、構築されたテキストデータベースは、ユーザ履歴データにおける出現頻度が第１の閾値以上であるテキストを含み、及び／又はテキストデータベースにおける全てのテキストのユーザ履歴データに対する合計割合が予め設定された第２の閾値以上であり、テキストデータベースに含まれるテキストの合理性が効果的に高められ、テキストデータベースがユーザの最近頻繁に使用する音声内容を網羅することができる。第１の閾値及び第２の閾値は、予め設定された同じ閾値又は異なる閾値であってもよい。

サーバがテキストデータベースを構築又は更新する際に、更なる可能な実施形態としては、予め異なる期間に異なる時間重みを設定し、テキストデータベースを構築又は更新する際に、ユーザ履歴データにおける各テキストの時間重みを決定し、ユーザ履歴データにおける各テキストに対して、テキストの時間重みとテキストのユーザ履歴データでの出現回数との積に基づき、ユーザ履歴データにおける各テキストのテキスト重みを計算し、テキスト重みの高から低まで順にユーザ履歴データから予め設定された数のテキストを選んでテキストデータベースを構築又は更新するために使用され、又は、ユーザ履歴データからテキスト重みが予め設定された重み閾値より大きいテキストを選んでテキストデータベースを構築又は更新するために使用される。したがって、テキストの出現回数及び／又は出現頻度を考慮するだけでなく、テキストの出現時間も考慮するため、テキストデータベースに含まれるテキストの合理性が高められ、テキストデータベースによりユーザが最近頻繁に使用する音声内容にオフライン認識と解析を正確に行うことができる。

上記各例におけるテキストデータベースの構築及び／又は更新プロセスは、車載機器で実行されてもよく、車載機器は、構築及び／又は更新されたテキストデータベースをサーバに送信し、サーバは、テキストデータベースに基づいてセマンティック解析モデルをトレーニングし、更にセマンティック解析モデルを車載機器に送信する。

図７は、本願の第６の実施例による模式図である。図７に示すように、車載機器の音声処理方法は、以下のステップを含む。

ステップＳ７０１では、ユーザ音声を取得する。

ステップＳ７０１の実現プロセスは、前述した実施例を参照することができるので、繰り返して説明しない。

ステップＳ７０２では、車載機器の信号強度を取得する。

車載機器の信号強度は、車載機器のネットワーク信号又は通信信号の信号強度を指す。例えば、車載機器とサーバとの間のデータ伝送速度により車載機器の信号強度を評価することができ、更に車載機器における予め設定された信号検出ソフトウェア又はハードウェアにより車載機器の信号強度を検出することもできる。

ステップＳ７０３では、車載機器の信号強度が予め設定された強度閾値より大きいか否かを決定する。

具体的には、信号強度が予め設定された強度閾値以下である場合、現在の車載シーンが弱いネットワークシーンに属することを示し、ユーザ音声に対するオンライン認識の効率が高くないため、ステップＳ７０４を実行する。信号強度が強度閾値より大きい場合、現在の車載シーンのネットワーク信号が良好であることを示し、ユーザ音声に対するオンライン認識の効率が高いため、ステップＳ７０９を実行する。

ステップＳ７０４では、ユーザ音声にオフライン認識を行い、オフライン認識テキストを得て、且つユーザ音声をサーバに送信する。

ステップＳ７０５では、ローカルのテキストデータベースにオフライン認識テキストとマッチングするテキストが存在するか否かを決定する。

具体的には、ローカルのテキストデータベースにオフライン認識テキストとマッチングするテキストが存在する場合、ステップＳ７０６を実行し、そうでなければ、ステップＳ７０８を実行する。

ステップＳ７０６では、オフライン認識テキストを解析し、ユーザ音声のオフライン解析結果を得る。

ステップＳ７０７では、オフライン解析結果に基づき、車載機器を制御する。

ステップＳ７０８では、サーバから返信されたユーザ音声のオンライン解析結果を待つ。

具体的には、サーバから返信されたユーザ音声のオンライン解析結果を待ち、サーバから返信されたユーザ音声のオンライン解析結果を受信した場合、ステップＳ７１０を実行する。

ステップＳ７０４～Ｓ７０８の実現プロセスは、前述した実施例を参照することができるので、繰り返して説明しない。

ステップＳ７０９では、ユーザ音声をサーバに送信し、ユーザ音声にオンラインの音声認識とセマンティック解析を行う。

具体的には、車載機器の信号強度が強度閾値より大きい場合、ユーザ音声をサーバに直接送信し、ユーザ音声にオンラインの音声認識とセマンティック解析を行うとともに、ステップＳ７１０を実行し、オフライン認識を行う必要がない。

ステップＳ７１０では、サーバから返信されたオンライン解析結果を受信した後、オンライン解析結果に基づき、車載機器を制御する。

ステップＳ７１０の実現プロセスは、前述した実施例を参照することができるので、繰り返して説明しない。

本実施例では、ユーザ音声に認識と解析を行う前に、車載機器の信号強度を取得し、現在のシーンが弱いネットワークシーンであるか否かを判断することで、弱いネットワークシーンのみでオフライン認識とオンライン認識を同時に行い、そうでなければ、オンライン認識を直接行う。したがって、弱いネットワークシーンでオフライン認識とオンライン認識を同時に行うことにより、ユーザ音声に対する処理効率を高め、同時に、できるだけユーザ音声に対する処理の正確性を確保し、更に弱いネットワークシーンで車載機器の音声応答の正確性を確保すると同時に、車載機器の音声応答効率を高める。

図８は、本願の第７の実施例による模式図である。図８に示すように、本実施例により提供される車載機器の音声処理装置は、ユーザ音声を取得するための取得ユニット８０１と、ユーザ音声にオフライン認識を行い、オフライン認識テキストを得て、且つユーザ音声をサーバに送信して、ユーザ音声にオンラインの音声認識とセマンティック解析を行うための認識ユニット８０２と、テキストデータベースにオフライン認識テキストとマッチングするテキストが存在する場合、オフライン認識テキストを解析し、ユーザ音声のオフライン解析結果を得るための解析ユニット８０３と、オフライン解析結果に基づき、車載機器を制御するための制御ユニット８０４と、を含む。

１つの可能な実現形態において、解析ユニット８０３は、テキストデータベースにオフライン認識テキストとマッチングするテキストが存在しない場合、サーバから返信されたユーザ音声のオンライン解析結果を待つためのオンライン解析モジュールを更に含み、１つの可能な実現形態において、制御ユニット８０４は、サーバから返信されたオンライン解析結果を受信した後、オンライン解析結果に基づき、車載機器を制御するための制御サブモジュールを更に含む。

１つの可能な実現形態において、解析ユニット８０３は、テキストデータベースにおける複数のテキストと解析セマンティックとの予め設定されたマッピング関係から、オフライン認識テキストに関連付けられた解析セマンティックを取得し、オフライン認識テキストに関連付けられた解析セマンティックをオフライン解析結果として決定するための第１のオフライン解析モジュールを含む。

１つの可能な実現形態において、解析ユニット８０３は、セマンティック解析モデルによりオフライン認識テキストを解析し、オフライン解析結果を得るための第２のオフライン解析モジュールを含み、セマンティック解析モデルのトレーニングプロセスで採用されたトレーニングデータは、テキストデータベースにおけるテキスト含む。

１つの可能な実現形態において、取得ユニット８０１は、予め収集された、過去の期間でユーザが音声で入力した複数のテキストを含むユーザ履歴データを取得するための履歴データ取得モジュールを含み、装置は、ユーザ履歴データをサーバに送信するための送信ユニットと、サーバから返信されたテキストデータベース及びセマンティック解析モデルを受信するための受信ユニットと、を更に含む。

１つの可能な実現形態において、取得ユニット８０１は、予め収集された、過去の期間でユーザが入力した音声を認識して得られた複数のテキストを含むユーザ履歴データを取得するための履歴データ取得モジュールを含み、装置は、ユーザ履歴データにおける各テキストの出現頻度及び／又は割合に応じて、ユーザ履歴データにおける複数のテキストをスクリーニングし、ユーザ履歴データにおけるスクリーニング後のテキストに基づき、テキストデータベースを得るためのデータ処理ユニットを更に含み、テキストデータベースは、ユーザ履歴データにおける出現頻度が予め設定された第１の閾値以上であるテキストを含み、及び／又はテキストデータベースにおける全てのテキストのユーザ履歴データに対する合計割合が予め設定された第２の閾値以上である。

１つの可能な実現形態において、取得ユニット８０１は、車載機器の信号強度を取得するための信号取得モジュールを含み、認識ユニット８０２は、信号強度が予め設定された強度閾値以下である場合、ユーザ音声にオフライン認識を行い、オフライン認識テキストを得て、且つユーザ音声をサーバに送信するための第１の認識サブモジュールを含む。

１つの可能な実現形態において、認識ユニット８０２は、信号強度が強度閾値より大きい場合、ユーザ音声をサーバに送信し、ユーザ音声にオンラインの音声認識とセマンティック解析を行うための第２の認識サブモジュールを更に含み、制御ユニット８０４は、サーバから返信されたオンライン解析結果を受信した後、オンライン解析結果に基づき、車載機器を制御するための制御サブユニットを含む。

図８で提供された車載機器の音声処理装置は、前述した対応する方法の実施例を実行することができ、その実現原理及び技術的効果が類似するため、ここで繰り返して説明しない。

本願の実施例によれば、本願は、電子機器及び読み取り可能な記憶媒体を更に提供する。

本願の実施例によれば、本願は、コンピュータプログラムを更に提供し、コンピュータプログラムは読み取り可能な記憶媒体に記憶されており、電子機器の少なくとも１つのプロセッサは、読み取り可能な記憶媒体からコンピュータプログラムを読み取ることができ、少なくとも１つのプロセッサは、電子機器に上記何れか１つの実施例により提供される技術案を実行させるように、コンピュータプログラムを実行する。

図９は、本願の実施例を実施するために適用可能な例示的な電子機器９００を示す模式的なブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、及び他の適切なコンピュータなどの様々な形態のデジタルコンピュータを表すことを目的とする。電子機器は、パーソナルデジタル処理、セルラ電話、スマートフォン、ウェアラブルデバイス、他の類似するコンピューティングデバイスなどの様々な形態のモバイルデバイスを表すこともできる。本明細書で示されるコンポーネント、それらの接続と関係、及びそれらの機能は単なる例であり、本明細書の説明及び／又は要求される本願の実施を制限することを意図したものではない。

図９に示すように、電子機器９００は、リードオンリーメモリ（ＲＯＭ）９０２に記憶されたコンピュータプログラム又は記憶ユニット９０８からランダムアクセスメモリ（ＲＡＭ）９０３にロードされたコンピュータプログラムに基づき、各種の適切な動作及び処理を実行することができるコンピューティングユニット９０１を含む。ＲＡＭ９０３には、機器９００の操作に必要な各種のプログラム及びデータを記憶することもできる。コンピューティングユニット９０１、ＲＯＭ９０２及びＲＡＭ９０３は、バス９０４を介して互いに接続される。入力／出力（Ｉ／Ｏ）インタフェース９０５もバス９０４に接続される。

機器９００における複数のコンポーネントは、Ｉ／Ｏインタフェース９０５に接続され、キーボード、マウスなどの入力ユニット９０６と、様々なタイプのディスプレイ、スピーカなどの出力ユニット９０７と、磁気ディスク、光学ディスクなどの記憶ユニット９０８と、ネットワークカード、モデム、無線通信送受信機などの通信ユニット９０９と、を含む。通信ユニット９０９によって、機器９００がインターネットのようなコンピュータネットワーク及び／又は各種の電気通信網を介して他の機器と情報／データを交換可能になる。

コンピューティングユニット９０１は、各種の処理及びコンピューティング能力を有する汎用及び／又は専用処理部品であり得る。コンピューティングユニット９０１のいくつかの例として、中央処理ユニット（ＣＰＵ）、グラフィック処理ユニット（ＧＰＵ）、各種の専用の人工知能（ＡＩ）コンピューティングチップ、機器学習モデルアルゴリズムを実行する各種のコンピューティングユニット、デジタル信号プロセッサ（ＤＳＰ）、及び任意の適切なプロセッサ、コントローラ、マイクロコントローラなどを含むが、これらに限定されない。コンピューティングユニット９０１は、以上に記載された車載機器の音声処理方法などの各方法及び処理を実行する。例えば、いくつかの実施例において、車載機器の音声処理方法は、コンピュータソフトウェアプログラムとして実現可能であり、記憶ユニット９０８のような機器読み取り可能な媒体に有形的に含まれる。いくつかの実施例において、コンピュータプログラムの一部又は全部は、ＲＯＭ９０２及び／又は通信ユニット９０９を介して機器９００にロード及び／又はインストールされることができる。コンピュータプログラムがＲＡＭ９０３にロードされてコンピューティングユニット９０１によって実行される時、以上に記載された車載機器の音声処理方法の１つ又は複数のステップを実行することができる。選択可能に、他の実施例において、コンピューティングユニット９０１は、他の任意の適切な手段により（例えば、ファームウェアにより）車載機器の音声処理方法を実行するように配置されてもよい。

本明細書において、以上に記載されたシステム及び技術の各種の実施形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）、特定用途用標準品（ＡＳＳＰ）、システムオンチップのシステム（ＳＯＣ）、複雑なプログラマブル論理デバイス（ＣＰＬＤ）、コンピュータハードウェア、ファームウェア、ソフトウェア、及び／又はそれらの組み合わせで実現することができる。これらの様々な実施形態は、１つ又は複数のコンピュータプログラムで実施され、当該１つ又は複数のコンピュータプログラムは、少なくとも１つのプログラマブルプロセッサを含むプログラム可能なシステムで実行及び／又は解釈されることができ、当該プログラマブルプロセッサは、専用又は汎用のプログラマブルプロセッサであってもよく、記憶システム、少なくとも１つの入力装置、及び少なくとも１つの出力装置からデータ及び命令を受信し、データ及び命令を当該記憶システム、当該少なくとも１つの入力装置、及び当該少なくとも１つの出力装置に伝送することができる。

本開示の方法を実施するためのプログラムコードは、１つ又は複数のプログラミング言語の任意の組み合わせでプログラミングすることができる。これらのプログラムコードは、汎用コンピュータ、専用コンピュータ又は他のプログラム可能なデータ処理装置のプロセッサ又はコントローラに提供されることができ、プログラムコードがプロセッサ又はコントローラによって実行される時に、フローチャート及び／又はブロック図に規定された機能／操作が実施される。プログラムコードは、完全に機器で実行されてもよく、部分的に機器で実行されてもよく、独立したソフトウェアパッケージとして部分的に機器で実行されるとともに部分的に遠隔機器で実行されてもよく、又は完全に遠隔機器又はサーバで実行されてもよい。

本開示の文脈において、機器読み取り可能な媒体は、有形的媒体であってよく、命令実行システム、装置又は機器に使用されるか、或いは命令実行システム、装置又は機器と組み合わせて使用されるプログラムを含んだり、記憶したりすることができる。機器読み取り可能な媒体は、機器読み取り可能な信号媒体又は機器読み取り可能な記憶媒体であり得る。機器読み取り可能な媒体は、電子、磁性、光学、電磁、赤外、又は半導体のシステム、装置又は機器、又は上記内容の任意の適切な組み合わせを含むことができるが、これらに限定されない。機器読み取り可能な記憶媒体のより具体的な例は、１つ又は複数のワイヤに基づく電気的接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、リードオンリーメモリ（ＲＯＭ）、消去可能プログラマブルリードオンリーメモリ（ＥＰＲＯＭ又はフラッシュメモリ）、光ファイバ、ポータブルコンパクトディスクリードオンリーメモリ（ＣＤ－ＲＯＭ）、光学式記憶機器、磁気記憶機器、又は上記内容の任意の適切な組み合わせを含む。

ユーザとのインタラクションを提供するために、コンピュータ上で、ここで説明されているシステム及び技術を実施することができ、当該コンピュータは、ユーザに情報を表示するためのディスプレイ装置（例えば、ＣＲＴ（陰極線管）又はＬＣＤ（液晶ディスプレイ）モニタ）と、キーボード及びポインティングデバイス（例えば、マウス又はトラックボール）とを有し、ユーザは、当該キーボード及び当該ポインティングデバイスによって入力をコンピュータに提供することができる。他の種類の装置も、ユーザとのインタラクションを提供することができ、例えば、ユーザに提供されるフィードバックは、任意の形態のセンシングフィードバック（例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック）であってもよく、任意の形態（音響入力と、音声入力と、触覚入力とを含む）でユーザからの入力を受信することができる。

ここで説明されるシステム及び技術は、バックエンドコンポーネントを含むコンピューティングシステム（例えば、データサーバとする）、又はミドルウェアコンポーネントを含むコンピューティングシステム（例えば、アプリケーションサーバ）、又はフロントエンドコンポーネントを含むコンピューティングシステム（例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータであり、ユーザは、当該グラフィカルユーザインタフェース又は当該ウェブブラウザによってここで説明されるシステム及び技術の実施形態とインタラクションすることができる）、又はこのようなバックエンドコンポーネントと、ミドルウェアコンポーネントと、フロントエンドコンポーネントの任意の組み合わせを含むコンピューティングシステムで実施することができる。任意の形態又は媒体のデジタルデータ通信（例えば、通信ネットワーク）によってシステムのコンポーネントを相互に接続することができる。通信ネットワークの例は、ローカルエリアネットワーク（ＬＡＮ）と、ワイドエリアネットワーク（ＷＡＮ）と、インターネットとを含む。

コンピュータシステムは、クライアントとサーバとを含むことができる。クライアントとサーバは、一般に、互いに離れており、通常に通信ネットワークを介してインタラクションする。対応するコンピュータ上で実行され、かつ互いにクライアント－サーバの関係を有するコンピュータプログラムによって、クライアントとサーバとの関係が生成される。サーバは、クラウドサーバであってもよく、クラウドコンピューティングサーバ又はクラウド主体とも呼ばれ、クラウドコンピューティングサービス体系におけるホスト製品であり、従来の物理ホスト及び仮想プライベートサーバ（「ＶｉｒｔｕａｌＰｒｉｖａｔｅＳｅｒｖｅｒ」，「ＶＰＳ」と略称される）において、管理難度が高く、サービス拡張性が弱いという欠陥を解決する。サーバは、分散型システムのサーバであってもよく、又はブロックチェーンを組み合わせたサーバであってもよい。

上記に示される様々な形態のフローを使用して、ステップを並べ替え、追加、又は削除することができる。例えば、本願に記載されている各ステップは、並列に実行されてもよいし、順次的に実行されてもよいし、異なる順序で実行されてもよいが、本願で開示されている技術案が所望の結果を実現することができれば、本明細書では限定しない。

上記の具体的な実施形態は、本願の保護範囲を制限するものではない。当業者は、設計要件と他の要因に基づいて、様々な修正、組み合わせ、サブコンビネーション、及び代替を行うことができる。本願の精神と原則内で行われる任意の修正、同等の置換、及び改善などは、いずれも本願の保護範囲内に含まれるべきである。

Claims

ユーザ音声を取得することと、
前記ユーザ音声にオフライン認識を行い、オフライン認識テキストを得て、且つ前記ユーザ音声をサーバに送信して、前記ユーザ音声にオンラインの音声認識とセマンティック解析を行うことと、
ローカルのテキストデータベースに前記オフライン認識テキストとマッチングするテキストが存在する場合、前記オフライン認識テキストを解析し、前記ユーザ音声のオフライン解析結果を得ることと、
前記オフライン解析結果に基づき、車載機器を制御することと、
を含む車載機器の音声処理方法。
前記テキストデータベースに前記オフライン認識テキストとマッチングするテキストが存在しない場合、前記サーバから返信された前記ユーザ音声のオンライン解析結果を待つことと、
前記サーバから返信されたオンライン解析結果を受信した後、前記オンライン解析結果に基づき、車載機器を制御することと、を更に含む、請求項１に記載の車載機器の音声処理方法。
前記オフライン認識テキストを解析し、前記ユーザ音声のオフライン解析結果を得ることは、
前記テキストデータベースにおける複数のテキストと解析セマンティックとの予め設定されたマッピング関係から、前記オフライン認識テキストに関連付けられた解析セマンティックを取得することと、
前記オフライン認識テキストに関連付けられた前記解析セマンティックを前記オフライン解析結果として決定することと、を含む、請求項１に記載の車載機器の音声処理方法。
前記オフライン認識テキストを解析し、前記ユーザ音声のオフライン解析結果を得ることは、
セマンティック解析モデルにより前記オフライン認識テキストを解析し、前記オフライン解析結果を得ることを含み、前記セマンティック解析モデルのトレーニングプロセスで採用されたトレーニングデータは、前記テキストデータベースにおけるテキストを含む、請求項１に記載の車載機器の音声処理方法。
予め収集された、過去の期間でユーザが音声で入力した複数のテキストを含むユーザ履歴データを取得することと、
前記ユーザ履歴データを前記サーバに送信することと、
前記サーバから返信された前記テキストデータベース及び前記セマンティック解析モデルを受信することと、を更に含む、請求項４に記載の車載機器の音声処理方法。
予め収集された、過去の期間でユーザが入力した音声を認識して得られた複数のテキストを含むユーザ履歴データを取得することと、
前記ユーザ履歴データにおける各テキストの出現頻度及び／又は割合に応じて、前記ユーザ履歴データにおける複数のテキストをスクリーニングすることと、
前記ユーザ履歴データにおけるスクリーニング後のテキストに基づき、前記テキストデータベースを得ることと、を更に含み、
前記テキストデータベースは、前記ユーザ履歴データにおける出現頻度が予め設定された第１の閾値以上であるテキストを含み、及び／又は前記テキストデータベースにおける全てのテキストの前記ユーザ履歴データに対する合計割合が予め設定された第２の閾値以上である、請求項１～４の何れか一項に記載の車載機器の音声処理方法。
前記車載機器の信号強度を取得することを更に含み、
前記ユーザ音声にオフライン認識を行い、オフライン認識テキストを得て、且つ前記ユーザ音声をサーバに送信することは、
前記信号強度が予め設定された強度閾値以下である場合、前記ユーザ音声にオフライン認識を行い、前記オフライン認識テキストを得て、且つ前記ユーザ音声を前記サーバに送信することを含む、請求項１～４の何れか一項に記載の車載機器の音声処理方法。
前記信号強度が前記強度閾値よりも大きい場合、前記ユーザ音声を前記サーバに送信して、前記ユーザ音声にオンラインの音声認識とセマンティック解析を行うことと、
前記サーバから返信されたオンライン解析結果を受信した後、前記オンライン解析結果に基づき、車載機器を制御することと、を更に含む、請求項７に記載の車載機器の音声処理方法。
ユーザ音声を取得するための取得ユニットと、
前記ユーザ音声にオフライン認識を行い、オフライン認識テキストを得て、且つ前記ユーザ音声をサーバに送信して、前記ユーザ音声にオンラインの音声認識とセマンティック解析を行うための認識ユニットと、
テキストデータベースに前記オフライン認識テキストとマッチングするテキストが存在する場合、前記オフライン認識テキストを解析し、前記ユーザ音声のオフライン解析結果を得るための解析ユニットと、
前記オフライン解析結果に基づき、車載機器を制御するための制御ユニットと、
を含む、車載機器の音声処理装置。
前記解析ユニットは、
前記テキストデータベースに前記オフライン認識テキストとマッチングするテキストが存在しない場合、前記サーバから返信された前記ユーザ音声のオンライン解析結果を待つためのオンライン解析モジュールを更に含み、
前記制御ユニットは、
前記サーバから返信された前記オンライン解析結果を受信した後、前記オンライン解析結果に基づき、車載機器を制御するための制御サブモジュールを更に含む、請求項９に記載の車載機器の音声処理装置。
前記解析ユニットは、
前記テキストデータベースにおける複数のテキストと解析セマンティックとの予め設定されたマッピング関係から、前記オフライン認識テキストに関連付けられた解析セマンティックを取得し、前記オフライン認識テキストに関連付けられた前記解析セマンティックを前記オフライン解析結果として決定するための第１のオフライン解析モジュールを含む、請求項９に記載の車載機器の音声処理装置。
前記解析ユニットは、
セマンティック解析モデルにより前記オフライン認識テキストを解析し、前記オフライン解析結果を得るための第２のオフライン解析モジュールを含み、前記セマンティック解析モデルのトレーニングプロセスで採用されたトレーニングデータは、前記テキストデータベースにおけるテキストを含む、請求項９に記載の車載機器の音声処理装置。
前記取得ユニットは、
予め収集された、過去の期間でユーザが音声で入力した複数のテキストを含むユーザ履歴データを取得するための履歴データ取得モジュールを含み、
前記車載機器の音声処理装置は、
前記ユーザ履歴データを前記サーバに送信するための送信ユニットと、
前記サーバから返信された前記テキストデータベース及び前記セマンティック解析モデルを受信するための受信ユニットと、を更に含む、請求項１２に記載の車載機器の音声処理装置。
前記取得ユニットは、
予め収集された、過去の期間でユーザが入力した音声を認識して得られた複数のテキストを含むユーザ履歴データを取得するための履歴データ取得モジュールを含み、
前記車載機器の音声処理装置は、
前記ユーザ履歴データにおける各テキストの出現頻度及び／又は割合に応じて、前記ユーザ履歴データにおける複数のテキストをスクリーニングし、前記ユーザ履歴データにおけるスクリーニング後のテキストに基づき、前記テキストデータベースを得るためのデータ処理ユニットを更に含み、
前記テキストデータベースは、前記ユーザ履歴データにおける出現頻度が予め設定された第１の閾値以上であるテキストを含み、及び／又は前記テキストデータベースにおける全てのテキストの前記ユーザ履歴データに対する合計割合が予め設定された第２の閾値以上である、請求項９～１２の何れか一項に記載の車載機器の音声処理装置。
前記取得ユニットは、
前記車載機器の信号強度を取得するための信号取得モジュールを含み、
前記認識ユニットは、
前記信号強度が予め設定された強度閾値以下である場合、前記ユーザ音声にオフライン認識を行い、前記オフライン認識テキストを得て、且つ前記ユーザ音声を前記サーバに送信するための第１の認識サブモジュールを含む、請求項９～１２の何れか一項に記載の車載機器の音声処理装置。
前記認識ユニットは、
前記信号強度が前記強度閾値よりも大きい場合、前記ユーザ音声を前記サーバに送信して、前記ユーザ音声にオンラインの音声認識とセマンティック解析を行うための第２の認識サブモジュールを更に含み、
前記制御ユニットは、
前記サーバから返信されたオンライン解析結果を受信した後、前記オンライン解析結果に基づき、車載機器を制御するための制御サブユニットを含む、請求項１５に記載の車載機器の音声処理装置。
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサに通信可能に接続されるメモリと、を含む電子機器であって、
前記メモリには、前記少なくとも１つのプロセッサにより実行可能な命令が記憶されており、前記命令は、前記少なくとも１つのプロセッサが請求項１～８の何れか一項に記載の車載機器の音声処理方法を実行できるように、前記少なくとも１つのプロセッサにより実行される、電子機器。
コンピュータ命令が記憶された非一時的なコンピュータ読み取り可能な記憶媒体であって、前記コンピュータ命令は、コンピュータに請求項１～８の何れか一項に記載の車載機器の音声処理方法を実行させるために用いられる、非一時的なコンピュータ読み取り可能な記憶媒体。
コンピュータプログラムであって、前記コンピュータプログラムがプロセッサによって実行される際に、請求項１～８の何れか一項に記載の車載機器の音声処理方法が実現される、コンピュータプログラム。
車体を含む車両であって、前記車体の中央制御機器は、請求項１７に記載の電子機器を含む、車両。