JP2022020051A

JP2022020051A - 意味認識方法、装置、機器及び記憶媒体

Info

Publication number: JP2022020051A
Application number: JP2021168564A
Authority: JP
Inventors: ユファンウー，; Yufang Wu; キンクー，; Qin Qu; キボワン，; Qibo Wang; チェンジャンマン，; Chengjian Man; キガンザン，; Qiguang Zang; シャオインフー，; Xiaoyin Fu
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-11-18
Filing date: 2021-10-14
Publication date: 2022-01-31
Anticipated expiration: 2041-10-14
Also published as: JP7280930B2; CN112530437B; CN112530437A; US20220028376A1

Abstract

【課題】ユーザの音声に対するリアルタイムの意味認識を実現し、マンマシン音声インタラクションシステムの応答時間を短縮し、インタラクション効率を向上させ、ユーザ体験を改善する意味認識方法、装置、電子機器及び記憶媒体を提供する。【解決手段】方法は、処理対象の音声の音声認識結果を取得する。音声認識結果は、新規認識結果セグメント及び履歴認識結果セグメントを含む。方法はさらに、履歴認識結果セグメント内の各履歴オブジェクトの意味ベクトルを取得し、各履歴オブジェクトの意味ベクトル及び新規認識結果セグメント内の各新規オブジェクトをストリーミング意味符号化層に入力し、各新規オブジェクトの意味ベクトルを取得し、各履歴オブジェクトの意味ベクトル及び各新規オブジェクトの意味ベクトルを、順番に配列されたストリーミング意味ベクトル融合層と意味理解マルチタスク層に入力して、処理対象の音声の意味認識結果を取得する。【選択図】図１

Description

本出願は人工知能技術分野に関し、特に深層学習、自然言語処理技術分野に関し、特に意味認識方法、装置、電子機器及び記憶媒体に関する。

人工知能技術の発展に伴い、マンマシン音声のインタラクションも大きな進展を遂げてきて、意味認識は自然言語処理技術分野における最も重要な一環として、知能対話システムや知能応答システムなどのマンマシン音声インタラクションシステムに広く応用されている。

現在、意味認識を行う場合、通常、ユーザの一言全体の音声認識結果を取得した後、一言全体の音声認識結果に対する意味解析を開始する。このように、マンマシン音声インタラクションシステムの応答時間が長く、マンマシンインタラクション効率が低く、ユーザの体験が悪い。

本開示は、意味認識方法、装置、機器、及び記憶媒体を提供する。

本開示の１態様によれば、意味認識方法を提供し、処理対象の音声の音声認識結果を取得するステップであって、前記音声認識結果には、新規認識結果セグメント及び履歴認識結果セグメントが含まれ、前記新規認識結果セグメントが、前記処理対象の音声内の新規音声セグメントに対応する認識結果セグメントであるステップと、前記履歴認識結果セグメント内の各履歴オブジェクトの意味ベクトルを取得し、各履歴オブジェクトの意味ベクトル及び新規認識結果セグメント内の各新規オブジェクトをストリーミング意味符号化層オに入力して、各新規オブジェクトの意味ベクトルを取得するステップと、前記各履歴オブジェクトの意味ベクトル及び各新規オブジェクトの意味ベクトルを、順番に配列されたストリーミング意味融合層と意味理解マルチタスク層に入力して、前記処理対象の音声の意味認識結果を取得するステップと、を含む。

本開示の別の態様によれば、意味認識装置を提供し、処理対象の音声の音声認識結果を取得するための第１の取得モジュールであって、前記音声認識結果が、新規認識結果セグメント及び履歴認識結果セグメントを含み、新規認識結果セグメントが、前記処理対象の音声内の新規音声セグメントに対応する認識結果セグメントである第１の取得モジュールと、前記履歴認識結果セグメント内の各履歴オブジェクトの意味ベクトルを取得し、前記各履歴オブジェクトの意味ベクトル及び前記新規認識結果セグメント内の各新規オブジェクトをストリーミング意味符号化層に入力して、各新規オブジェクトの意味ベクトルを取得するための第２の取得モジュールと、前記各履歴オブジェクトの意味ベクトル及び前記各新規オブジェクトの意味ベクトルを、順番に配列されたストリーミング意味ベクトル融合層と意味理解マルチタスク層に入力して、処理対象の音声の意味認識結果を取得するための第３の取得モジュールと、を備える。

本開示の別の態様によれば、電子機器を提供し、前記電子機器は、少なくとも１つのプロセッサと、該少なくとも１つのプロセッサに通信可能に接続されるメモリと、を備え、前記メモリには、前記少なくとも１つのプロセッサによって実行可能な命令が記憶されており、前記命令が前記少なくとも１つのプロセッサのいずれかが上記意味認識方法を実行できるように、前記少なくとも１つのプロセッサによって実行される。

本開示の別の態様によれば、コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体がさらに提供され、前記コンピュータ命令が、コンピュータに上記意味認識方法を実行させることに用いられる。
本開示の別の態様によれば、コンピュータプログラムを提供し、前記コンピュータプログラムは、コンピュータに上記意味認識方法を実行させる。

本出願の技術によれば、ユーザの音声に対するリアルタイムの意味認識を実現し、マンマシン音声インタラクションシステムの応答時間を短縮し、インタラクション効率を向上させ、ユーザ体験を改善する。

なお、この部分で説明された内容は、本出願の実施例の肝心又は重要な特徴を限定することを意図するものではなく、本出願の範囲を限定することを意図するものでもない。本出願の他の特徴は、以下の説明によって容易に理解されやすくなる。

図面は、本技術案をよりよく理解するためのものであり、本出願を限定するものではない。
本出願の第１の実施例に係る概略図である。本出願の第２の実施例に係る概略図である。本出願の第３の実施例に係る概略図である。本出願の実施例に係る意味認識装置のブロック図である。本出願の第４の実施例に係る概略図である。本出願の第５の実施例に係る概略図である。本出願の第６の実施例に係る概略図である。本出願の実施例の意味認識方法を実現するための電子機器のブロック図である。

以下、図面を参照して本出願の例示的な実施例を説明し、理解を容易にするためにその中には本出願の実施例の様々な詳細事項を含んでおり、それらは単なる例示的なものと見なされるべきである。したがって、当業者は、本出願の範囲及び精神から逸脱することなく、ここで説明される実施例に対して様々な変更及び修正を行うことができることを認識されたい。同様に、明確及び簡潔にするために、以下の説明では、周知の機能及び構成の説明を省略する。

人工知能技術の発展に伴い、マンマシン音声のインタラクションも大きな進展を遂げてきて、意味認識は自然言語処理技術分野において、最も重要な一環として、知能対話システム、知能応答システムなどの人機音声インタラクションシステムに広く応用されていると理解される。

現在、意味認識を行う場合、通常、ユーザの文全体の音声認識結果を取得した後、文全体の音声認識結果に意味解析を開始する。このように、マンマシン音声インタラクションシステムの応答時間が長く、インタラクション効率が低く、ユーザの体験が悪い。

本出願は、マンマシンインタラクションシステムの応答時間を短縮し、インタラクション効率を向上させ、ユーザ体験を改善するために、意味認識方法を提出し、この方法は、まず処理対象の音声の音声認識結果を取得し、ここで、音声認識結果が、新規認識結果セグメント及び履歴認識結果セグメントを含み、新規認識結果セグメントが処理対象の音声内の新規音声セグメントに対応する認識結果セグメントであり、履歴認識結果セグメント内の各履歴オブジェクトの意味ベクトルを取得し、各履歴オブジェクトの意味ベクトル及び新規認識結果セグメント内の各新規オブジェクトをストリーミング意味符号化層に入力して、各新規オブジェクトの意味ベクトルを取得し、各履歴オブジェクトの意味ベクトルを、順番に配列されたストリーミング意味ベクトル融合層と意味理解マルチタスク層に入力して、処理対象の音声の意味認識結果を取得する。これにより、ユーザの音声に対するリアルタイムの意味認識を実現し、マンマシン音声インタラクションシステムの応答時間を短縮し、インタラクション効率を向上させ、ユーザ体験を改善する。

以下、図面を参照して本出願の実施例の意味認識方法、装置、電子機器、非一時的なコンピュータ読み取り可能な記憶媒体を説明する。

まず、図１と組み合わせて、本出願に提供される意味認識方法を詳細に説明する。

図１は本出願の第１の実施例の概略図である。なお、本実施例によって提供される意味認識方法は、実行主体が意味認識装置であり、意味認識装置は電子機器であってもよく、電子機器に配置されてもよく、ユーザの音声の意味をリアルタイムに認識し、マンマシン音声インタラクションシステムの応答時間を短縮し、インタラクション効率を向上させ、ユーザ体験を改善する。

ここで、電子機器は、データを処理できる固定またはモバイルコンピューティングデバイス、例えば、ノートパソコン、スマートフォン、ウェアラブルデバイスなどのモバイルコンピューティングデバイス、またはデスクトップコンピュータなどの固定コンピューティングデバイス、またはサーバ、または他のタイプのコンピューティングデバイスなどであってもよい。意味認識装置は、電子機器であってもよいし、電子機器に取り付けられて意味認識を行うためのアプリケーションであってもよいし、意味認識を実現するためのアプリケーションの管理者、開発者によって使用されるこのアプリケーションを管理、維持するためのウェブページ、アプリケーションなどであってもよく、本出願はこれに限定されない。

図１に示すように、意味認識方法は、以下のステップを含むことができる。

ステップ１０１、処理対象の音声の音声認識結果を取得する。

ここで、音声認識結果は、新規認識結果セグメント及び履歴認識結果セグメントを含み、新規認識結果セグメントは処理対象の音声内の新規音声セグメントに対応する認識結果セグメントである

なお、処理対象の音声の音声認識結果は、意味認識装置が処理対象の音声に対して音声認識を行うことによって取得されてもよいし、他の音声認識機能を有する電子機器から意味認識装置に送信されたものであってもよいし、意味認識装置の電子機器において、音声認識機能を有する装置から意味認識装置に送信されたものであってもよいが、本出願の実施例はこれに限定されない。本出願の実施例は、音声認識装置が処理対象の音声に対して音声認識を行うことを例として説明する。

なお、本出願の実施例では、意味認識装置は、ユーザが話すと同時に、ユーザの音声をリアルタイムに取得し、音声認識結果に基づいてリアルタイムに意味認識することができると理解される。

例えば、意味認識装置が１秒ごとにユーザの音声を認識すると仮定すると、意味認識装置が第１秒内に音声セグメント「我想听（私は聞きたい）」を取得した場合、音声セグメント「我想听」に対応する音声認識結果「我想听」を取得し、音声認識結果に基づいて音声セグメント「我想听」に対して意味認識をすることができる。意味認識装置が第２秒内に音声セグメント「張三」を取得した場合、音声セグメント「我想听張三」（私は張三を聞きたい）に対応する音声認識結果「我想听張三」を取得し、音声認識結果に基づいて音声セグメント「我想听張三」に対して意味認識をすることができる。意味認識装置が第３秒内に音声セグメント「的歌（の歌）」を取得した場合、音声セグメント「我想听張三的歌（私は張三の歌を聞きたい）」に対応する音声認識結果「我想听張三的歌」を取得し、音声認識結果に基づいて、音声セグメント「我想听張三的歌」に対して意味認識をすることができる。ユーザの音声全体の意味認識を実現するまで上記のプロセスを繰り返する。

本出願の実施例では、毎回に取得された音声認識結果における前回取得された音声認識結果の同じ認識結果セグメントを履歴認識結果セグメントと呼び、前回取得された音声認識結果の上に新たに追加されたセグメント、すなわち前に取得された音声セグメントよりも新たに追加された音声セグメントに対応する認識結果セグメントを新規認識結果セグメントとする。

引き続き上記の例を参照すると、意味認識装置が音声セグメント「我想听」及び「張三」を取得した後、音声セグメント「我想听張三」に対して意味認識をすることができ、この時、処理対象の音声は音声セグメント「我想听張三」を含む。今回取得された音声セグメントは、以前に取得された音声セグメント「我想听」より「張三」が新しく追加されたため、処理対象の音声において、新規音声セグメントが「張三」となり、処理対象の音声の音声認識結果には、履歴認識結果セグメント「我想听」と新規認識結果セグメント「張三」が含まれる。

意味認識装置がユーザの音声セグメント「我想听」、「張三」、「的歌」を取得した後、音声セグメント「我想听張三的歌」に対して意味認識をすることができ、この時、処理対象の音声は音声セグメント「我想听張三的歌」を含む。今回取得された音声セグメントは、以前に取得された音声セグメント「我想听張三」より「的歌」が新しく追加されたため、処理対象の音声において新規セグメントが「的歌」となり、処理対象の音声の音声認識結果には、履歴認識結果セグメント「我想听張三」と新規認識結果セグメント「的歌」が含まれる。

なお、意味認識装置が音声セグメント「我想听」を取得した後、音声セグメント「我想听」に対して意味認識をすることができ、この時、処理対象の音声には音声セグメント「我想听」が含まれ、処理対象の音声において、新規音声セグメントが「我想听」となり、今回は意味認識装置が初めて音声セグメントを取得したため、処理対象の音声の音声認識結果には履歴認識結果セグメントではなく、新規認識結果セグメント「我想听」のみが含まれる。

ステップ１０２、履歴認識結果セグメント内の各履歴オブジェクトの意味ベクトルを取得し、各履歴オブジェクトの意味ベクトル及び新規認識結果セグメント内の各新規オブジェクトをストリーミング意味符号化層に入力して、各新規オブジェクトの意味ベクトルを取得する。

ここで、履歴オブジェクトは、履歴認識結果セグメントにおける最小ユニットである。新規オブジェクトは新規認識結果セグメントにおける最小ユニットである。例えば、履歴認識結果セグメントが文字を単位とする場合、履歴認識結果セグメント「我想听」内の各履歴オブジェクトに「我」、「想」、「听」が含まれる。新規認識結果セグメントが文字を単位とする場合、新規認識結果セグメント「的歌」の各新規オブジェクトには「的」「歌」が含まれる。

本出願の実施例の意味認識装置には、意味認識モデルが含まれ、意味認識モデルは、順番に配列されたストリーミング意味符号化層、ストリーミング意味ベクトル融合層、意味理解マルチタスク層を含むことが理解される。

ストリーミング意味符号化層は、各履歴オブジェクトの意味ベクトル及び各新規オブジェクトの意味ベクトルを取得することに用いられる。

本出願の実施例では、処理対象の音声の音声認識結果を初めて取得した後、ストリーミング意味符号化層を使用して、新規認識結果セグメント内の各新規オブジェクトの意味ベクトルを決定することができる。処理対象の音声の音声認識結果を２回目に取得した後、１回目に取得された各新規オブジェクトの意味ベクトル、すなわち２回目に取得された履歴認識結果セグメント内の各履歴オブジェクトの意味ベクトル、及び２回目に取得された新規認識結果セグメント内の各新規オブジェクトに応じて、ストリーミング意味符号化層を使用して、２回目に取得された新規認識結果セグメント内の各新規オブジェクトの意味ベクトルを決定する。処理対象の音声の音声認識結果を３回目に取得した後、１回目と２回目に取得された各新規オブジェクトの意味ベクトル、すなわち３回目に取得された履歴認識結果セグメント内の各履歴オブジェクトの意味ベクトル、及び３回目に取得された新規認識結果セグメント内の各新規オブジェクトに基づいて、ストリーミング意味符号化層を使用して、３回目に取得された新規認識結果セグメントの各新規オブジェクトの意味ベクトルを決定する。

このように類推すると、処理対象の音声認識結果を取得した後、以前毎回に取得された各新規オブジェクトの意味ベクトル、すなわち今回取得された履歴認識結果セグメント内の各履歴オブジェクトの意味ベクトル、及び今回取得された新規認識結果セグメントの各新規オブジェクトに基づいて、ストリーミング意味符号化層を使用して、今回取得された新規認識結果セグメント内の各新規オブジェクトの意味ベクトルを決定し、今回取得された各新規オブジェクトの意味ベクトルを、前回取得された各新規オブジェクトの意味ベクトルと共に、次回新規認識セグメント内の各新規オブジェクトの意味ベクトルを取得する際に、履歴認識結果セグメント内の各履歴オブジェクトの意味ベクトルとして、次回得される新規認識結果セグメント内の各新規オブジェクトを組み合わせて、ストリーミング意味符号化層を使用して、次回取得される新規認識結果セグメント内の各新規オブジェクトの意味ベクトルを決定する。

例えば、引き続き上記の例を参照すると、意味認識装置が処理対象の音声「我想听」の音声認識結果を取得した後、音声認識結果に含まれる新規音声セグメントにおける「我」、「想」、「听」の３つの新規オブジェクトに基づいて、ストリーミング意味符号化層を使用して、「我」、「想」、「听」の３つの新規オブジェクトの意味ベクトルを取得する。意味認識装置が処理対象の音声「我想听張三」の音声認識結果を取得した後、音声認識結果に含まれる新規音声セグメントにおける「張」、「三」の２つの新規オブジェクト、及び以前に決定された「我」、「想」、「听」の３つの新規オブジェクトの意味ベクトルに基づいて、ストリーミング意味符号化層を使用して、「張」、「三」という２つの新規オブジェクトの意味ベクトルを取得する。意味認識装置が処理対象の音声「我想听張三的歌」（私は張三の歌を聞きたい）の音声認識結果を取得した後、音声認識結果に含まれる新規音声セグメントにおける「的」、「歌」という２つの新規オブジェクトと、以前に決定された「我」、「想」、「听」、「張」、「三」の５つの新規オブジェクトの意味ベクトルに基づいて、ストリーミング意味符号化層を使用して、「的」、「歌」という２つの新規オブジェクトの意味ベクトルを取得する。

本出願の実施例では、履歴認識結果セグメント内の各履歴オブジェクトの意味ベクトル、及び新規認識結果セグメント内の各新規オブジェクトに基づいて、ストリーミング意味符号化層を使用して、各新規オブジェクトの意味ベクトルを取得する際に、各履歴オブジェクトの意味ベクトル、及び新規認識結果セグメント内の各新規オブジェクトをストリーミング意味符号化層に入力し、ストリーミング意味符号化層の出力は、すなわち各新規オブジェクトの意味ベクトルである。

なお、新規認識結果セグメント内の各新規オブジェクトの意味ベクトルを取得する際に、新規認識結果セグメントにおける新規オブジェクトの数が複数である場合、各履歴オブジェクトの意味ベクトル及び新規認識結果セグメントにおける最上位にソートされた新規オブジェクトをストリーミング意味符号化層に入力して、新規認識結果セグメントにおける最上位にソートされた新規オブジェクト意味ベクトルを取得することができる。さらに、各履歴オブジェクトの意味ベクトル、新規認識結果セグメントにおける最上位にソートされた新規オブジェクト意味ベクトル、及び新規オブジェクトの意味ベクトルにおける第２位にソートされた新規オブジェクトを、ストリーミング意味符号化層に入力して、新規認識結果セグメントにおける第２位にソートされた意味ベクトルを取得する。さらに、各履歴オブジェクトの意味ベクトル、新規認識結果セグメントにおける最上位にソートされた新規オブジェクト、第２位にソートされた新規オブジェクトの意味ベクトル、及び新規認識結果セグメントにおける第３位にソートされた新規オブジェクトを、ストリーミング意味符号化層に入力して、新規認識結果セグメントにおける第３位の新規オブジェクトの意味ベクトルを取得する。新規認識結果セグメントにおける新規オブジェクトのすべての意味ベクトルを取得するまでこのように類推する。

なお、本出願の実施例では各オブジェクトの順序は、取得時間に応じて並べたものである。例えば、履歴認識結果セグメントは「我想听」である場合、ユーザが話している時、まず「我」を言い、次に「想」を言い、その後は「听」を言う。対応する意味認識装置は「我」、「想」、「听」といういくつの履歴オブジェクトを取得する順序も、まずは「我」、次は「想」、最後は「听」であり、これらの履歴オブジェクトの順序は「我」が一番前になり、「想」が二番目になり、「听」が三番目になる。

なお、各新規オブジェクトをストリーミング意味符号化層に入力する場合、具体的に入力するのは、新規オブジェクトベクトル及び位置ベクトルをスプライシングして得られたスプライシングベクトルであってもよい。ここで、新規オブジェクトのオブジェクトベクトルは、新規オブジェクトの特徴を説明することに用いられ、新規オブジェクトの位置ベクトルは、処理対象の音声内の新規オブジェクトの位置を説明することに用いられ、例えば、新規オブジェクトは処理対象の音声において、最上位にソートされているか、または第２位にソートされているかなどである。新規オブジェクトのオブジェクトベクトルと位置ベクトルは、具体的には、関連技術において、特徴ベクトルを取得する方式によって取得することができ、本出願はこれに対して限定しない。

例えば、引き続き上記の例を参照すると、意味認識装置は、新規認識結果セグメント「張三」における「張」及び「三」という２つの新規オブジェクトの意味ベクトルを取得する際に、履歴認識結果セグメントにおける「我」、「想」、「听」という３つの履歴オブジェクトの意味ベクトル、及び新規オブジェクト「張」のスプライシングベクトルをストリーミング意味符号化層に入力して、新規オブジェクト「張」の意味ベクトルを取得する。履歴認識結果セグメントにおける「我」「想」「听」という３つの履歴オブジェクトの意味ベクトル、新規オブジェクト「張」の意味ベクトル、及び新規オブジェクト「三」のスプライシングベクトルを、ストリーミング意味符号化層に入力し、新規オブジェクト「三」の意味ベクトルを取得して、さらいに新規認識結果セグメントにおける「張」及び「三」という２つの新規オブジェクトの意味ベクトルを取得する。

なお、各新規オブジェクトの意味ベクトルを取得する際に、非ストリーミング意味符号化層を使用して取得する場合、各新規オブジェクトの意味ベクトルを取得する際に、再計算して各履歴オブジェクトの意味ベクトルを取得して、各履歴オブジェクトの意味ベクトルを使用して、各新規オブジェクトの意味ベクトルを取得する必要があるは理解される。意味認識装置は、リアルタイムに取得されたユーザの音声に対してリアルタイムの意味認識を行うため、ユーザの音声全体に対して意味認識をするプロセスにおいて、処理対象の音声の音声認識結果を何回も取得し、例えば、最初に処理対象の音声「我想听」の音声認識結果を取得し、２回目に処理対象の音声「我想听張三」の音声認識結果を取得し、三回目に処理対象の音声「我想听張三的歌」の音声認識結果を取得し、毎回取得された処理対象の音声の音声認識結果に基づいて、毎回取得された処理対象の音声に対して意味認識を行い、意味認識を行うたびに、いずれも現在対応する処理対象の音声の音声認識結果における各新規音声認識結果セグメントの各新規オブジェクトの意味ベクトルを取得する必要があり、毎回処理対象の音声の音声認識結果を取得した後、取得された各履歴オブジェクトの意味ベクトルを再計算して、さらに各履歴オブジェクトの意味ベクトルに基づいて新規認識結果セグメント内の各新規オブジェクトの意味ベクトルを取得すると、計算量は非常に大きくなる。

本出願の実施例では、ストリーミング意味符号化層を使用して、以前に取得された各履歴オブジェクトの意味ベクトルを再び採用して、各新規オブジェクトの意味ベクトルを取得することができる。毎回処理対象の音声の音声認識結果を取得した後、全部各履歴オブジェクトの意味ベクトルを再計算してから、各履歴オブジェクトの意味ベクトルに基づいて、各新規オブジェクトの意味ベクトルを取得する必要がないため、各新規オブジェクトの意味ベクトルを取得する時の計算量を大幅に低減し、意味認識の速度を向上させて、さらに、マンマシン音声インタラクションの応答時間を減少させ、音声インタラクション効率を向上させることができる。

例えば、引き続き上記の例を参照すると、ユーザが話そうとする完全な音声が「我想听張三的歌」と仮定すると、この完全な音声の意味認識プロセスにおいて、処理対象の音声の音声認識結果を３回取得した。ここで、意味認識装置が最初に取得したのは、処理対象の音声「我想听」の音声認識結果であり、音声認識結果には新規認識結果セグメント「我想听」が含まれ、意味認識装置は、処理対象の音声「我想听」の音声認識結果に基づいて、処理対象の音声「我想听」に対して意味認識を行う。意味認識装置が２回目に取得したのは、処理対象の音声「我想听張三」の音声認識結果であり、音声認識結果には履歴認識結果セグメント「我想听」と新規認識結果セグメント「張三」が含まれ、意味認識装置は、処理対象の音声「我想听張三」の音声認識結果に基づいて、処理対象の音声「我想听張三」に対して意味認識を行う。音声認識装置が３回目に取得したのは、処理対象の音声「我想听張三的歌」という音声認識の結果であり、音声認識結果には履歴認識結果セグメント「我想听張三」と新規認識結果セグメント「的歌」が含まれ、意味認識装置は、処理対象の音声「我想听張三的歌」という音声認識の結果に基づいて、処理対象の音声「我想听張三的歌」に対して意味認識を行う。

処理対象の音声に意味認識を行うたびに、新規認識結果セグメント内の各新規オブジェクトの意味ベクトルを取得する必要があり、非ストリーミング符号化層を使用して、各新規オブジェクトの意味ベクトルを取得する場合、処理対象の音声「我想听」に対して意味認識を行うプロセスにおいて、計算して新規オブジェクト「我」の意味ベクトルを取得する必要があり、また、新規オブジェクト「我」の意味ベクトルと新規オブジェクト「想」に基づいて、新規オブジェクト「想」の意味ベクトルを取得し、また新規オブジェクト「我」と新規オブジェクト「想」の意味ベクトル、及び新規オブジェクト「听」に基づいて、新規オブジェクト「听」の意味ベクトルを算出する。

処理対象の音声「我想听張三」に対して意味認識を行うプロセスにおいて、再計算して履歴オブジェクト「我」の意味ベクトルを取得する必要があり、さらに履歴オブジェクト「我」の意味ベクトルと履歴オブジェクト「想」に基づいて、再計算して履歴オブジェクト「想」の意味ベクトルを取得する。さらに履歴オブジェクト「我」、履歴オブジェクト「想」、及び履歴オブジェクト「听」のそれぞれの意味ベクトル、及び新規オブジェクト「張」に基づいて、計算して新規オブジェクト「張」の意味ベクトルを取得し、さらに履歴オブジェクト「我」、履歴オブジェクト「想」、履歴オブジェクト「听」のそれぞれの意味ベクトル、新規オブジェクトの「張」の意味ベクトル、及び新規オブジェクト「三」に基づいて、計算して新規オブジェクト「三」の意味ベクトルを取得す。

処理対象の音声「我想听張三的歌」に対して意味認識を行うプロセスにおいて、上記のように再計算して履歴オブジェクト「我」、「想」、「听」と、「張」、「三」のそれぞれの意味ベクトルを取得し、さらに各履歴オブジェクトの意味ベクトルと新規オブジェクト「的歌」に基づいて、計算して新規オブジェクト「的」と「歌」のそれぞれの意味ベクトルを取得する必要がある。

これにより、処理対象の音声の音声認識結果において、認識結果セグメント内の各新規オブジェクトの意味ベクトルを取得するたびに、非ストリーミング意味符号化層を使用して取得する場合、毎回再計算して各履歴オブジェクトの意味ベクトルを取得する必要があり、ユーザの全体の音声が長い場合、計算量は非常に大きくなる。

本出願の実施例では、ストリーミング意味符号化層を使用して、処理対象の音声「我想听張三」に対して意味認識を行うプロセスにおいて、再計算して「我」、「想」、「听」という３つの履歴オブジェクトを取得する必要はなく、以前に取得された各履歴オブジェクトの意味ベクトルを直に使用して、「張」と「三」の２つの新規オブジェクトの意味ベクトルを取得することができる。処理対象の音声「我想听張三的歌」に意味認識を行うプロセスにおいて、再計算して履歴オブジェクト「我」、「想」、「听」、「張」と「三」のそれぞれの意味ベクトルを取得する必要もなく、以前に入手された各履歴オブジェクトの意味ベクトルを直接利用して、「的」及び「歌」という２つの新規オブジェクトの意味ベクトルを取得することができる。これにより、各新規オブジェクトの意味ベクトルを取得する時の計算量を減少させ、意味認識の速度を向上させて、さらにマンマシン音声インタラクションの応答時間を減少させ、音声インタラクションの効率を向上させることができる。

ステップ１０３、各履歴オブジェクトの意味ベクトル及び各新規オブジェクトの意味ベクトルを、順番に配列されたストリーミング意味ベクトル融合層と意味理解マルチタスク層に入力し、処理対象の音声の意味認識結果を取得する。

ここで、意味理解マルチタスクは、意味認識機能を有し、各履歴オブジェクトの意味ベクトル及び各新規オブジェクトの意味ベクトルに基づいて、処理対象の音声の意味認識結果を取得することに用いられる。

なお、各履歴オブジェクトの意味ベクトル及び各新規オブジェクトの意味ベクトルに基づいて意味認識を行う際に、各意味ベクトルの次元は異なる可能性があり、本出願の実施例では、ストリーミング意味ベクトル融合層は、各意味ベクトルの次元を統一して、各履歴オブジェクトの意味ベクトルと各新規オブジェクトの意味ベクトルを意味理解マルチタスク層に基づいて、意味認識を行うことに用いられ、また、ストリーミング意味ベクトル融合層は、各履歴オブジェクトの意味オブジェクトと各新規オブジェクトの意味ベクトルをタイミング的に融合させることができ、融合後の各履歴オブジェクトの融合意味ベクトル及び各新規オブジェクトの融合意味ベクトルを得て、さらに、各履歴オブジェクトの融合意味ベクトルと各新規オブジェクトの融合意味ベクトル、及び意味認識機能を有する意味理解マルチタスクを使用して、処理対象の音声の意味認識結果を取得する。

具体的には、各履歴オブジェクトの意味ベクトルと各新規オブジェクトの意味ベクトルを最上位にソートされたストリーミング意味ベクトル融合層に入力すると、各履歴オブジェクト及び各新規オブジェクトの意味ベクトルの次元統一及びタイミング融合を実現することができ、さらにストリーミング意味ベクトル融合層の出力結果を意味理解マルチタスク層に入力して処理対象の音声の意味認識結果を取得することができる。

本出願の実施例によって提供される意味認識方法は、ユーザの完全な音声を取得した後、ユーザの完全な音声に意味認識をする必要がないため、ユーザの音声を取得する過程において、意味認識を開始することができ、これにより、マンマシンインタラクションシステムの応答時間を短縮し、インタラクション効率を向上させることができる。また、ユーザの音声に対して意味認識をする場合、ストリーミング意味符号化層を採用するため、以前に取得された各履歴オブジェクトの意味ベクトルを再び使用して、各新規オブジェクトの意味ベクトルを取得することができ、処理対象の音声の音声認識結果を取得した後、全部再計算して、各履歴オブジェクトの意味ベクトルを取得する必要がない。さらに、各履歴オブジェクトの意味ベクトルに基づいて、各新規オブジェクトの意味ベクトルを取得することにより、各新規オブジェクトの意味ベクトルを取得する時の計算量を大幅に減少させ、意味認識の速度を向上させ、さらにマンマシン音声インタラクションの応答時間を減少させ、音声インタラクション効率を向上させる。

本出願の実施例によって提供される意味認識方法は、まず処理対象の音声の音声認識結果を取得し、さらに履歴認識結果セグメント内の各履歴オブジェクトの意味ベクトルを取得し、各履歴オブジェクトの意味ベクトル及び新規認識結果セグメント内の各新規オブジェクトをストリーミング意味符号化層に入力して、各新規オブジェクトの意味ベクトルを取得し、さらに、各履歴オブジェクトの意味ベクトル及び各新規オブジェクトの意味ベクトルを、順番に配列されたストリーミング意味ベクトル融合層と意味理解マルチタスク層に入力して、処理対象の音声の意味認識結果を取得する。これにより、ユーザの音声に対するリアルタイムの意味認識を実現し、マンマシン音声インタラクションシステムの応答時間を短縮し、インタラクション効率を向上させ、ユーザ体験を改善する。

上記の分析から分かるように、本出願の実施例では、各履歴オブジェクトの意味ベクトル及び新規認識結果セグメント内の各新規オブジェクトをストリーミング意味符号化層に入力して、各新規オブジェクトの意味ベクトルを取得し、以下、図２と併せて、本出願によって提供される意味認識方法において、各履歴オブジェクトの意味ベクトル及び認識結果セグメント内の各新規オブジェクトに基づいて、ストリーミング意味符号化層を使用して、各新規オブジェクトの意味ベクトルを取得するプロセスをさらに説明する。

図２は本出願の第２の実施例に係る概略図である。図２に示すように、意味認識方法は、以下のステップを含むことができる。

ステップ２０１、処理対象の音声の音声認識結果を取得する。

ここで、音声認識結果は、新規認識結果セグメント及び履歴認識結果セグメントを含み、ここで、新規認識結果セグメントは処理対象の音声内の新規音声セグメントに対応する認識結果セグメントである。

上記ステップ２０１の具体的な実現プロセス及び原理は、上記実施例の説明を参照することができ、ここでは説明を省略する。

例示的な実施例では、意味認識装置が取得したのは、文字を単位する音声認識結果であってもよく、これに応じて、各履歴オブジェクトは音声認識結果における履歴認識結果セグメントの各文字であり、各新規オブジェクトは音声認識結果における新規認識結果セグメントの各文字である。意味認識装置は、文字を単位する音声認識結果に基づいて、処理対象の音声に対して意味認識を行うことができる。

いくつかのシーンにおいて、文字を単位とする音声認識結果に基づいて、処理対象の音声に意味認識を行うと、意味認識結果が正確ではないことを引き起こす可能性があることは理解される。例えば、遠方界音声インタラクションにおいて、ノイズ干渉と信号減衰、及び垂直領域スロットが複雑な多様性を有するため、例えば、同音語、類音語、ロングテールワードなど、並びにユーザのアクセントの問題により、音声認識結果は音が正しいが文字が誤る場合になる可能性があり、意味認識装置はさらに誤った音声認識結果に基づいて意味認識を行う場合、エラーの累積を引き起こしやすく、したがって意味認識結果が正確ではない場合が現れる。また、文字を単位にする音声認識結果は、音節を単位にする音声認識結果よりも、エラーが発生する確率がより高いため、ストリーミング意味符号化層を使用して各新規オブジェクトの意味ベクトルを取得する場合、再び使用できる、前に取得された各履歴オブジェクトの意味ベクトルの数が減少する。

それでは、本出願の実施例では、意味装置は音節を単位にする音声認識結果を取得することもでき、これに応じて、各履歴オブジェクトは音声認識結果における履歴認識結果セグメントの各音節であり、各新規オブジェクトは音声認識結果における新規認識結果セグメントの各音節である。意味認識装置は、音節を単位にする音声認識結果に基づいて、処理対象の音声に意味認識を行うことができる。

例示的な実施例では、処理対象の音声を音節認識モデルに入力して、処理対象の音声の音節認識結果を取得し、音節認識結果を処理対象の音声の音声認識結果とする、という以上の方法によって処理対象の音声の音声認識結果を取得することができ、ここで、音節認識モデルは、畳み込みニューラルネットワークモデル、再帰型ニューラルネットワークなど、自然言語処理分野において処理対象の音声の音節を任意に認識できるモデルであってもよく、本出願はこれに限定されない。

例えば、意味認識装置が初めて処理対象の音声を取得した後に、処理対象の音声の認識結果セグメントが文字を単位にして「我想听」であると仮定すると、処理対象の音声を音節認識モデルに入力して、以下の音節認識結果「ｕｕ＿Ｔ０＿ｕｏ＿Ｔ３ｘ＿Ｔ０＿ｉａｎｇ＿Ｔ３ｔ＿Ｔ０＿ｉｎｇ＿Ｔ１」を取得することができ、さらに、この音節認識結果を処理対象の音声の音声認識結果とすることができる。

意味認識装置が２回目に処理対象の音声を取得した後、処理対象の音声の認識結果セグメントが文字を単位にして「我想听張三」である場合、処理対象の音声を音節認識モデルに入力し、次の音節認識結果「ｕｕ＿Ｔ０＿ｕｏ＿Ｔ３ｘ＿Ｔ０＿ｉａｎｇ＿Ｔ３ｔ＿Ｔ０＿ｉｎｇ＿Ｔ１ｚｈ＿Ｔ０＿ａｎｇ＿Ｔ１ｓ＿Ｔ０＿ａｎ＿Ｔ１＿」を取得することができ、さらに、この音節認識結果を処理対象の音声の音声認識結果とすることができる。ここで、音声認識結果において、履歴認識結果セグメントは「ｕｕ＿Ｔ０＿ｕｏ＿Ｔ３ｘ＿Ｔ０＿ｉａｎｇ＿Ｔ３ｔ＿Ｔ０＿ｉｎｇ＿Ｔ１」であり、新規認識結果セグメントは「ｚｈ＿Ｔ０＿ａｎｇ＿Ｔ１ｓ＿Ｔ０＿ａｎ＿Ｔ１」である。さらに、処理対象の音声の音声認識結果に基づいて、処理対象の音声の音声に対して意味認識を行うことができる。

意味認識装置が３回目に処理対象の音声を取得した後、処理対象の音声の認識結果セグメントが文字を単位にして「我想听張三的歌」である場合、処理対象の音声を音節認識モデルに入力して、以下の音節認識結果「ｕｕ＿Ｔ０＿ｕｏ＿Ｔ３ｘ＿Ｔ０＿ｉａｎｇ＿Ｔ３ｔ＿Ｔ０＿ｉｎｇ＿Ｔ１ｚｈ＿Ｔ０＿ａｎｇ＿Ｔ１ｓ＿Ｔ０＿ａｎ＿Ｔ１Ｔ３８ｇ＿Ｔ０＿ｅ＿Ｔ１」を取得することができる。さらに、この音節認識結果を処理対象の音声の音声認識結果とすることができ、ここで、音声認識結果において、履歴認識結果セグメントは「ｕｕ＿Ｔ０＿ｕｏ＿Ｔ３ｘ＿Ｔ０＿ｉａｎｇ＿Ｔ３ｔ＿Ｔ０＿ｉｎｇ＿Ｔ１ｚｈ＿Ｔ０＿ａｎｇ＿Ｔ１ｓ＿Ｔ０＿ａｎ＿Ｔ１」であり、新規認識結果セグメントは「Ｔ３８ｇ＿Ｔ０＿ｅ＿Ｔ１」である。さらに、処理対象の音声の音声認識結果に基づいて、処理対象の音声に対して意味認識を行うことができる。

本出願の実施例では、意味認識装置は、音節を単位とする音声認識結果を取得し、さらに音節を単位とする音声認識結果に基づいて、処理対象の音声に対して意味認識を行う。一方、音節を単位とする音声認識結果は音が正しくて文字が誤る場合がないため、音声認識結果の精度を向上させ、音声認識結果を使用して意味認識を行う時のエラーの累積を減少させ、意味認識装置における意味認識モデルの音声認識結果の誤りの許容性を向上させて、意味認識装置における意味認識モデルの意味認識結果の精度とモデルのロバスト性を向上させる。他方では、音節を単位にする認識結果は、文字を単位にする認識結果よりもエラーが発生する確率がより小さく、認識結果がより安定的であるため、ストリーミング意味符号化層を使用して、各新規オブジェクトの意味ベクトルを取得する時、再び使用できる、以前に取得された各履歴オブジェクトの意味ベクトルの数がより多く、したがって計算量をさらに減少させ、意味認識の速度をさらに向上させることができる。

ステップ２０２において、履歴認識結果セグメント内の各履歴オブジェクトの意味ベクトルを取得する。

具体的には、意味認識装置は、毎回取得される処理対象の音声に対して意味認識をするプロセスにおいて、前に決定された各履歴オブジェクトの意味ベクトルを直接取得することができる。ここで、上記ステップ２０２の具体的な実施プロセス及び原理は、上記実施例における説明を参照すればよい。ここでは詳しい説明を省略する。

ステップ２０３、各新規オブジェクトのスプライシングベクトルを取得し、スプライシングベクトルは、新規オブジェクトのオブジェクトベクトル及び位置ベクトルに基づいてスプライシングすることによって取得される。

ここで、新規オブジェクトのオブジェクトベクトルは、新規オブジェクトの特徴を説明することに用いられ、新規オブジェクトの位置ベクトルは、新規オブジェクトが処理対象の音声内の位置を説明することに用いられ、例えば、新規オブジェクトは処理対象の音声において、最上位にソートされ、または第２位にソートされるなど。オブジェクトのオブジェクトベクトルと位置ベクトルは、具体的には、関連技術において、特徴ベクトルを任意に取得するという方式で取得することができるが、本出願はこれに対して限定しない。

例示的な実施例では、各新規オブジェクトに対して、新規オブジェクトのオブジェクトベクトルと位置ベクトルをスプライシングすると、新規オブジェクトのスプライシングベクトルを取得して、各新規オブジェクトのスプライシングベクトルを取得することができる。

ステップ２０４、各履歴オブジェクトの意味ベクトルに基づいて、ストリーミング意味符号化層内の各履歴オブジェクトの中間結果に対して初期化設定を行い、設定されたストリーミング意味符号化層を取得する。

ステップ２０５、各新規オブジェクトのスプライシングベクトルを設定されたストリーミング意味符号化層に入力して、各新規オブジェクトの意味ベクトルを取得する。

具体的には、各履歴オブジェクトの意味ベクトルを取得した後、各履歴オブジェクトの意味ベクトルを、ストリーミング意味符号化層の各履歴オブジェクトの中間結果として決定して、ストリーミング意味符号化層内の各履歴オブジェクトの中間結果の初期化設定を実現して、設定されたストリーミング意味符号化層を取得し、さらに、各新規オブジェクトのスプライシングベクトルを設定されたストリーミング意味符号化層に入力すると、各新規オブジェクトの意味ベクトルを取得することができる。

上記プロセスにより、各履歴オブジェクトの意味ベクトル及び新規認識結果セグメント内の各新規オブジェクトに基づいて、ストリーミング意味符号化層を使用して、各新規オブジェクトの意味ベクトルを取得し、以前に取得された各履歴オブジェクトの意味ベクトルを再び使用して、各新規オブジェクトの意味ベクトルを取得することができ、処理対象の音声の音声認識結果を取得した後、全部再計算して、各履歴オブジェクトの意味ベクトルを取得する必要がない、さらに、各履歴オブジェクトの意味ベクトルに基づいて、各新規オブジェクトの意味ベクトルを取得することにより、各新規オブジェクトの意味ベクトルを取得する時の計算量を大幅に減少させ、意味認識の速度を向上させ、さらにマンマシン音声インタラクションの応答時間を減少させ、音声インタラクション効率を向上させる。

ステップ２０６、各履歴オブジェクトの意味ベクトル及び各新規オブジェクトの意味ベクトルを、順番に配列されたストリーミング意味ベクトル融合層及び意味理解マルチタスク層に入力し、処理対象の音声の意味認識結果を取得する。

ここで、上記ステップ２０６の具体的な実施プロセス及び原理は、上記実施例の詳細な説明を参照してもよく、ここでは説明を省略する。

本出願の実施例では、処理対象の音声の音声認識結果における認識結果セグメントの各新規オブジェクトの意味ベクトルを取得する時に、各新規オブジェクトに対して、処理対象の音声の認識結果セグメントに基づいて、この新規オブジェクトの上位にソートされた各履歴オブジェクトの意味ベクトルを取得し、または、処理対象の音声の認識結果セグメントにおけるこの新規オブジェクトの上位にソートされた各履歴オブジェクトの意味ベクトルと、この新規オブジェクトの上位にソートされた新規オブジェクトの意味ベクトルを取得する。すなわち、本出願の実施例では、ストリーミング意味符号化層を使用して、各新規オブジェクトの意味ベクトルを取得する場合は、いずれも処理対象の音声の認識結果セグメントにおける現在新規オブジェクトの上位にソートされた各履歴オブジェクト、または、現在新規オブジェクトの上位にソートされた各履歴オブジェクト及び新規オブジェクトに依存し、処理対象の音声の認識結果セグメントにおける現在の新規オブジェクトの下位にソートされた新規オブジェクトに依存せず、このようにして以前に取得された各履歴オブジェクトの意味ベクトルを再び使用して、新規オブジェクトの意味ベクトルを取得する時の計算量を減少させ、マンマシン音声インタラクションシステムの応答時間を短縮し、インタラクション効率を向上させるという目的を実現することができる。この目的を達成するためには、ストリーミング意味符号化層の構造はワンウエイであり、これに応じて、ストリーミング意味ベクトル融合層の構造もワンウエイであることが必要である。

例示的な実施例では、ストリーミング意味符号化層は、自然言語処理の分野において広く応用される翻訳（ｔｒａｎｓｆｏｒｍｅｒ）モデルの多層符号化層を使用して実現されることができる。すなわち、ストリーミング意味符号化層は、ｔｒａｎｓｆｏｒｍｅｒモデルの多層符号化層を含む。ｔｒａｎｓｆｏｒｍｅｒモデルのツーウェーネットワークは、前後の位置情報を同時に融合させるものであるため、ｔｒａｎｓｆｏｒｍｅｒモデルの符号化層がマスク付きのマルチヘッドアテンションメカニズムを含むように設定して、現在ストリーミング意味符号化層を使用して、各新規オブジェクトの意味ベクトルを取得する場合、処理対象の音声の認識結果セグメントにおける上位にソートされた各履歴オブジェクト、または、上位にソートされた各履歴オブジェクト及び新規オブジェクトのみに依存し、各処理対象の音声の認識結果セグメントにおける下位にソートされた新規オブジェクトに依存しないことを実現する。

ここで、ｔｒａｎｓｆｏｒｍｅｒモデルの符号化層の層数は、必要に応じて設定することができ、例えば、マンマシン音声インタラクションシステムが応答速度、意味認識精度に対応する要求に応じて、符号化層の層数を柔軟に設定することができる。

例示的な実施例では、ストリーミング意味ベクトル融合層は、一方向ＬＳＴＭ層（ＬｏｎｇＳｈｏｒｔ－ＴｅｒｍＭｅｍｏｒｙ、長短期記憶ネットワーク）を採用することができる。ここで、ＬＳＴＭは、時間再帰型ニューラルネットワークであり、ＲＮＮ（ＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋ、再帰型ニューラルネットワーク）の一種である。

ストリーミング意味符号化層がｔｒａｎｓｆｏｒｍｅｒモデルの多層符号化層を含み、符号化層がマスク付きのマルチヘッドアテンションメカニズムを含み、ストリーミング意味ベクトル融合層が一方向ＬＳＴＭ層であるように設定することにより、処理対象の音声に対して意味認識を行う際に、処理対象の音声の認識結果セグメントにおける上位にソートされた各履歴オブジェクト、または、上位にソートされた各履歴オブジェクト及び新規オブジェクトのみに依存し、各処理対象の音声の認識結果セグメントにおける下位にソートされた新規オブジェクトに依存しないことを実現して、各新規オブジェクトの意味ベルトを取得する時に、以前に取得された各履歴オブジェクトの意味ベクトルを再び使用して、新規オブジェクトの意味ベクトルを取得する時の計算量を減少させ、マンマシン音声インタラクションシステムの応答時間を短縮することができる。

本出願の実施例によって提供される意味認識方法は、処理対象の音声の音声認識結果を取得した後、履歴認識結果セグメント内の各履歴オブジェクトの意味ベクトルを取得してから、各新規オブジェクトのスプライシングベクトルを取得し、スプライシングベクトルが、新規オブジェクトのオブジェクトベクトル及び位置ベクトルに基づいてスプライシングして得られ、各履歴オブジェクトの意味ベクトルに基づいて、ストリーミング意味符号化層内の各履歴オブジェクトの中間結果に対して初期化設定をして、設定されたストリーミング意味符号化層を取得してから、各新規オブジェクトのスプライシングベクトルを設定されたストリーミング意味符号化層に入力して、各新規オブジェクトの意味ベクトルを取得し、さらに、各履歴オブジェクトの意味ベクトル及び各新規オブジェクトの意味ベクトルを、順番に配列されたストリーミング意味ベクトル融合層及び意味理解マルチタスク層に入力し、処理対象の音声の意味認識結果を取得する。これにより、ユーザの音声に対するリアルタイムの意味認識を実現し、マンマシン音声インタラクションシステムの応答時間を短縮し、インタラクション効率を向上させ、ユーザ体験を改善する。

以上の分析により、本出願の実施例では、各履歴オブジェクトの意味ベクトル及び各新規オブジェクトの意味ベクトルを、順番に配列されたストリーミング意味ベクトル融合層及び意味理解マルチタスク層に入力し、処理対象の音声の意味認識結果を取得することができる。図３と併せて、本出願によって提供される意味認識方法において、各履歴オブジェクトの意味ベクトル及び各新規オブジェクトの意味ベクトルに基づいて、処理対象の意味認識結果を取得するプロセスに対して、さらに説明する。

図３は、本出願の第３の実施例に係る概略図である。図３に示すように、意味認識方法は、以下のステップ３０１～ステップ３０４を含むことができる。

ステップ３０１、処理対象の音声の音声認識結果を取得する。

ステップ３０２、履歴認識結果セグメント内の各履歴オブジェクトの意味ベクトルを取得し、各履歴オブジェクトの意味ベクトル及び新規認識結果セグメント内の各新規オブジェクトをストリーミング意味符号化層に入力して、各新規オブジェクトの意味ベクトルを取得する。

ここで、上記ステップ３０１～ステップ３０２の具体的な実現プロセス及び原理は、上記実施例の説明を参照してもよく、ここでは説明を省略する。

ステップ３０３、各履歴オブジェクトの意味ベクトル及び各新規オブジェクトの意味ベクトルをストリーミング意味ベクトル融合層に入力して、各履歴オブジェクトの融合意味ベクトル、及び各新規オブジェクトの融合意味ベクトルを取得する。

ここで、新規オブジェクトの融合意味ベクトルは、新規オブジェクト及び以前のオブジェクトに対して意味ベクトル融合を行うことによって取得される。

ステップ３０４、各履歴オブジェクトの融合意味ベクトル及び各新規オブジェクトの融合意味ベクトルを意味理解マルチタスクに入力して、処理対象の音声の意味認識結果を取得する。

各履歴オブジェクトの意味ベクトル及び各新規オブジェクトの意味ベクトルに基づいて意味認識を行う場合、各意味ベクトルの次元は異なる可能性があり、本出願の実施例では、ストリーミング意味ベクトル融合層は、各意味ベクトルの次元を統一して、各履歴オブジェクトの意味ベクトルと各新規オブジェクトの意味ベクトルを意味理解マルチタスク層に基づいて、意味認識を行うことに用いられる。また、ストリーミング意味ベクトル融合層は、各履歴オブジェクトの意味オブジェクトと各新規オブジェクトの意味ベクトルをタイミング的に融合させ、融合後の各履歴オブジェクトの融合意味ベクトルと各新規オブジェクトの融合意味ベクトルを得て、さらに、各履歴オブジェクトの融合意味ベクトルと各新規オブジェクトの融合意味ベクトル、及び意味認識機能を有する意味理解マルチタスクを使用して、処理対象の音声の意味認識結果を取得することは理解される。

具体的に、各履歴オブジェクトの意味ベクトルと各新規オブジェクトの意味ベクトルを上位にソートされたストリーミング意味ベクトル融合層に入力して、各履歴オブジェクト及び各新規オブジェクトの意味ベクトルの次元統一及びタイミング融合を実現し、ストリーミング意味ベクトル融合層の出力は、各履歴オブジェクトの融合意味ベクトル、及び各新規オブジェクトの融合意味ベクトルである。ストリーミング意味ベクトル融合層の出力結果を意味理解マルチタスク層に入力して処理対象の音声の意味認識結果を取得することができる。

具体的に実現する場合、各履歴オブジェクトに対して、ストリーミング意味ベクトル融合層は、この履歴オブジェクトの意味ベクトル、及び処理対象の音声の認識結果セグメントといおけるこの履歴オブジェクトの上位にソートされた各履歴オブジェクトの意味ベクトルに対して意味ベクトル融合を行い、この履歴オブジェクトの融合意味ベクトルを取得することができる。

各新規オブジェクトに対して、ストリーミング意味融合総はこの新規オブジェクトの意味ベクトルと、処理対象の音声の認識結果セグメントにおけるこの新規オブジェクトの上位にソートされた各オブジェクトの意味ベクトルに対して意味ベクトル融合を行って、この新規オブジェクトの融合意味ベクトルを取得することができる。ここで、この新規オブジェクトの上位にソートされた各オブジェクトは、その新規オブジェクトの上位にソートされた各履歴オブジェクトのみを含むか、または、この新規オブジェクトの上位にソートされた各履歴オブジェクト或いはこの新規オブジェクトの上位にソートされた１つまたは複数の新規オブジェクトを含む可能性がある。

例えば、処理対象の音声認識結果には、履歴認識結果セグメント「我想听」と新規認識結果セグメント「張三」が含まれると仮定すると、ストリーミング意味ベクトル融合層は、履歴オブジェクト「我」と「想」それぞれの意味ベクトルに対して意味ベクトル融合を行って、履歴オブジェクト「想」の融合意味ベクトルを取得し、履歴オブジェクト「我」、「想」及び「听」それぞれの意味ベクトルに対して意味ベクトルの融合をし、履歴オブジェクト「听」の融合意味ベクトルを取得する。また、ストリーミング意味ベクトル融合層は、履歴オブジェクト「我」、「想」、「听」それぞれの意味ベクトルと、新規オブジェクトの「張」の意味ベクトルを融合させて、新規オブジェクト「張」の融合意味ベクトルを取得し、履歴オブジェクト「我」、「想」、「听」それぞれの意味ベクトルと、新規オブジェクト「張」、「三」それぞれの意味ベクトルに対して意味ベクトルの融合を行って、新規オブジェクト「三」の融合意味ベクトルを取得することができる。

ここで、複数の意味ベクトルに対して意味ベクトル融合を行う場合、複数の意味ベクトルを合計して、融合意味ベクトルを取得することができる。

各履歴オブジェクトの意味ベクトル及び各新規オブジェクトの意味ベクトルをストリーミング意味ベクトル融合層に入力することにより、各オブジェクトの意味ベクトルの次元統一及びタイミング融合を実現し、さらに意味ベクトル融合後の各オブジェクトの融合意味ベクトルに基づいて、意味理解マルチタスク層を使用して、処理対象の音声の意味認識結果を取得することができる。

例示的な実施例では、意味理解マルチタスク層は、意図認識ブランチ及びスロット認識ブランチを含むことができる。これに応じて、ステップ３０４は、以下のステップ３０４ａ～ステップ３０４ｃに示すような方式を通して実現することができる。

ステップ３０４ａ、各新規オブジェクトのうち最後にソートされた第１の新規オブジェクトの融合意味ベクトルを意図認識ブランチに入力して、処理対象の音声の意図認識結果を取得する。

ここで、意図認識とは、ユーザが何をしようとするかを判断することであり、例えば、ユーザがマンマシン音声インタラクションシステムに１つの質問を提出すると、マンマシン音声インタラクションシステムは、このユーザから聞かれたのは天気か、旅行かそれともある映画の情報かを判断し、判断プロセスは意図認識プロセスである。

意図認識ブランチは処理対象音声の意図を認識することに用いられる。ここで、意図認識ブランチは関連技術における意図認識を実現できる任意の構造を採用するとこができ、本出願はこれに限定されない。

具体的には、各新規オブジェクトのうち最後にソートされた第１の新規オブジェクトの融合意味ベクトルを意図認識ブランチに入力して、処理対象の音声の意図認識結果を取得することができる。

ステップ３０４ｂ、各履歴オブジェクトの融合意味ベクトル及び各新規オブジェクトの融合意味ベクトルをスロット認識ブランチに入力して、処理対象の音声のスロット認識結果を取得する。

ここで、スロット認識は、ユーザの音声から所定の構造化フィールドを抽出して、後続の処理フローにより正確なフィードバックを与えるものである。

ここで、スロットブランチは処理対象の音声のスロットを認識することに用いられる。ここで、スロット認識ブランチは、関連技術におけるスロット認識を実現できる任意の構造を採用することができ、本出願はこれに限定されない。

具体的には、各履歴オブジェクトの融合意味ベクトル及び各新規オブジェクトの融合意味ベクトルをスロット認識ブランチに入力して、処理対象の音声のスロット認識結果を取得することができる。

ステップ３０４ｃ、意図認識結果及びスロット認識結果に基づいて、処理対象の音声の意味認識結果を生成する。

具体的には、処理対象の音声の意図認識結果及びスロット認識結果を取得した後、意図認識結果及びスロット認識結果に基づいて、処理対象の音声の意味認識結果を生成することができる。

以下、図４に示すブロック図と併せて、本願によって提供される意味認識方法をさらに説明する。

図４に示すように、意味認識モデルは、ストリーミング意味符号化層（ブロック４０４に示すように）と、ストリーミング意味ベクトル融合層（ブロック４０３に示すように）と、意味理解マルチタスク層とを含むことができ、ここで、意味理解マルチタスク層は、意図認識ブランチ（ブロック４０１に示すように）と、スロット認識ブランチ（ブロック４０２に示すように）を含む。ここで、ストリーミング意味符号化層は、ｔｒａｎｓｆｏｒｍｅｒモデルの多層符号化層を採用することができ、符号化層はマスク付きのマルチヘッドアテンションメカニズムを含み、符号化層の層数は８層を例とする。ｔｒａｎｓｆｏｒｍｅｒモデルの多層符号化層には、残差モジュール、フィードフォワードネットワークが含まれる。ストリーミング意味ベクトル融合層は、一方向長短期記憶ネットワーク（ＬＳＴＭ）層である。意図認識ブランチは、１つの完全接続層及び１つの分類ネットワークを含み、分類ネットワークはＳｏｆｔｍａｘ分類ネットワークを採用することができる。スロット認識ブランチは、１つの完全接続層と１つのシーケンスラベリングネットワークを含み、ここで、シーケンスラベリングネットワークは、ＣＲＦ（ＣｏｎｔａｔｉｏｎａｌＲａｎｄｏｍＦｉｅｌｄｓ、条件付確率場）ネットワークを採用することができる。

図４に示すように、処理の音声認識結果に意味認識を行う時、各新規オブジェクトの、オブジェクトベクトルと位置ベクトルに基づいてスプライシングして得られたスプライシングベクトルを取得することができ、且つスプライシングベクトルをストリーミング意味符号化層に入力する。ストリーミング意味符号化層は、処理対象の音声の音声認識結果を取得する時、各新規オブジェクトのスプライシングベクトルと、以前に取得された各履歴オブジェクトの意味ベクトルに基づいて、各新規オブジェクトの意味ベクトルを取得することができる。さらに、各履歴オブジェクトの意味ベクトル及び各新規オブジェクトの意味ベクトルを、一方向ＬＳＴＭ層に入力して、次元統一とタイミング融合をして、各履歴オブジェクトの融合意味ベクトル及び各新規オブジェクトの融合意味ベクトルを取得することができる。ＬＳＴＭ層から出力された各履歴オブジェクトの融合意味ベクトル及び各新規オブジェクトの融合意味ベクトルを意味理解マルチタスク層に入力し、各新規オブジェクトのうち最後にソートされた第１新規オブジェクトの融合意味ベクトルを意図認識ブランチに入力し、全連結層を経て、もう１つの分類ネットワークを経て、確率の最も高いカテゴリを意図認識結果として出力することができる。各履歴オブジェクトの融合意味ベクトルと各新規オブジェクトの融合意味ベクトルをスロット認識ブランチに入力し、１つの完全接続層を経て、もう１つのシーケンスラベリングネットワークを経て、スコアの最も高いルートをスロット認識結果として出力して、意図認識結果とスロット認識結果に基づいて、処理対象の音声の意味認識結果を取得することができる。

意味理解マルチタスク層において、意図認識ブランチとスロット認識ブランチを設定することにより、意図認識ブランチとスロット認識ブランチを使用して、処理対象の音声の意図認識結果とスロット認識結果をそれぞれ取得し、さらに意図認識結果とスロット認識結果に基づいて、処理対象の音声の意味認識結果を生成し、処理対象の音声の意図やスロットなどの意味情報を組み合わせて、処理対象の音声に意味認識を実現し、意味認識の精度を向上させた。

本出願の実施例によって提供される意味認識方法は、処理対象の音声の音声認識結果を取得した後、履歴認識結果セグメント内の各履歴オブジェクトの意味ベクトルを取得し、各履歴オブジェクトの意味ベクトル及び新規認識結果セグメント内の各新規オブジェクトをストリーミング意味符号化層に入力して、各新規オブジェクトの意味ベクトルを取得し、さらに各履歴オブジェクトの意味ベクトル及び各新規オブジェクトの意味ベクトルをストリーミング意味ベクトル融合層に入力して、各履歴オブジェクトの融合意味ベクトル、及び各新規オブジェクトの融合意味ベクトルを取得し、さらに各履歴オブジェクトの融合意味ベクトル及び各新規オブジェクトの融合意味ベクトルを意味理解マルチタスクに入力して、処理対象の音声の意味認識結果を取得する。ユーザの音声に対するリアルタイムの意味認識を実現し、マンマシン音声インタラクションシステムの応答時間を短縮し、インタラクション効率を向上させ、ユーザ体験を改善する。

以上の分析から分かるように、本出願の実施例では、ストリーミング意味符号化層、ストリーミング意味ベクトル融合層、意味理解マルチタスク層を使用して、リアルタイムの意味認識を実現することができる。以下は図５と併せて、本出願によって提供される意味認識方法において、ストリーミング意味符号化層、ストリーミング意味ベクトル融合層、意味理解マルチタスク層を取得するプロセスについて説明する。

図５は、本出願の第４の実施例に係る概略図である。図５に示すように、意味認識方法は、以下のステップ５０１～ステップ５０３をさらに含むことができる。

ステップ５０１、順番に接続された事前にトレーニングされたストリーミング意味符号化層、ストリーミング意味ベクトル融合層、及び意味理解マルチタスク層を含む初期の意味認識モデルを取得する。

ステップ５０２、初期の意味認識モデルのトレーニングデータを取得する。

ステップ５０３、トレーニングデータを使用して、初期の意味認識モデルをトレーニングして、トレーニングされた意味認識モデルを取得する。

ステップ５０４、トレーニングされた意味認識モデル内のストリーミング意味符号化層、ストリーミング意味ベクトル融合層、及び意味理解マルチタスク層を取得する。

本出願の実施例では、まず、順番に接続されたストリーミング意味符号化層、ストリーミング意味ベクトル融合層、及び意味理解マルチタスク層から構成される初期の意味認識モデルを取得し、意味認識モデルのトレーニングデータを取得することができ、さらに、トレーニングデータを使用して、初期の意味認識モデルをトレーニングして、意味認識を行うことに用いられるストリーミング意味符号化層、ストリーミング意味ベクトル融合層、及び意味理解マルチタスク層を取得する。

ここで、ストリーミング意味符号化層は、ｔｒａｎｓｆｏｒｍｅｒモデルの多層符号化層を含むことができ、符号化層はマスク付きのマルチヘッドアテンションメカニズムを含む。ストリーミング意味ベクトル融合層は、一方向ＬＳＴＭ層であっても良い。意味理解マルチタスク層は意図認識ブランチ及びスロット認識ブランチを含むことができる。

ここで、意味認識モデル内のストリーミング意味符号化層は、事前にトレーニングされたストリーミング意味符号化層であってもよい。

例示的な実施例では、以下の方式により、事前にトレーニングされたストリーミング意味符号化層を取得することができる。初期のストリーミング意味符号化層を取得し、事前トレーニングデータを取得し、ここで、事前トレーニングデータが、予め設定された数より大きいオブジェクトシーケンスを含み、初期のストリーミング意味符号化層に基づいて事前トレーニングモデルを構築し、事前トレーニングデータを使用して事前トレーニングモデルをトレーニングして、トレーニングされた事前トレーニングモデル内のストリーミング意味符号化層を取得する。

ここで、予め設定された数は必要に応じて設定することができる。なお、予め設定された数が大きいほど、事前トレーニングデータに含まれるオブジェクトシーケンスが多くなり、事前トレーニングデータを使用して取得したトレーニングモデル内のストリーミング意味符号化層の予測精度が高いことは理解される。実際の応用では、マンマシンの音声インタラクションシステムの意味認識の精度を向上させるために、予め設定された数がより大きい数値に設定することができる。

オブジェクトシーケンスは、オブジェクトから構成されるシーケンスであり、例えば、オブジェクトの「我」「想」「听」から構成されるシーケンスである。オブジェクトシーケンスにおける第１のシーケンスは、オブジェクトシーケンスにおける任意のオブジェクトである。

ここで、事前トレーニングモデルは、ｔｒａｎｓｆｏｒｍｅｒ構造に基づくｒｏｂｅｒｔａモデルとｅｌｅｃｔｒａモデルを使用して構成され得る。ここで、Ｅｌｅｃｔｒａモデルとｒｏｂｅｒｔａモデルはいずれもｔｒａｎｓｆｏｒｍｅｒ構造に基づくものである一方、Ｅｌｅｃｔｒａモデルの復号部分についてはｒｏｂｅｒｔａモデルを参照している。

事前トレーニングモデルを具体的にトレーニングする際に、深層学習の方式を使用してトレーニングすることができ、具体的に事前トレーニングモデルをトレーニングするプロセスは、関連技術における説明を参照することができ、ここでは説明を省略する。

現在、ユーザの音声はますます自由化、口語化になり、ロングテール表現はますます豊富になり、本出願の実施例では、大規模な教師なし事前トレーニングコーパスに基づいて、ｔｒａｎｓｆｏｒｍｅｒ構造に基づく事前トレーニングモデルをトレーニングして、事前にトレーニングされたストリーミング意味符号化層を取得することができ、ＬＳＴＭネットワーク及びＲＮＮネットワークと比較して、ｔｒａｎｓｆｏｒｍｅｒは長距離コンテキストに対してモデリング能力がより強いため、事前トレーニングモデルをトレーニングして取得された事前にトレーニングされたストリーミング意味符号化層を使用して、意味認識プロセスにおけるオブジェクトの意味ベクトルを取得して、意味認識装置におけるロングテール表現、冗長口語の汎用性及び意味認識モデルに対する意味認識モデルのマイグレーション能力を向上させることができ、ユーザのロングテール表現、冗長口語の表現が含まれる表現の意味理解の精度を向上させる。

また、音声認識結果が音節を単位にする場合、音が正しいが文字が誤るという認識問題によるエラーの累積を明らかに改善できる一方、ある程度は同音異義の問題などの曖昧な要素も導入される可能性があり、このような問題はコンテキストと併せて意味を十分理解する必要がある。本出願で採用されたｔｒａｎｓｆｏｒｍｅｒ構造に基づく事前にトレーニングされたストリーミング意味符号化層は、十分強い特徴付け能力を備えており、十分大きな規模の教師なし事前トレーニングデータを学習することにより、より十分、豊かな意味表現を取得することができ、さらに音声認識結果は音節を単位にする場合、導入される同音異義の問題を改善することができる。

例示的な実施例では、初期の意味認識モデルをトレーニングして、トレーニングされた意味認識モデルを取得する時、トレーニングデータは意図トレーニングデータ、スロットトレーニングデータ、及び意図スロットトレーニングデータのうちの少なくとも１つを含むことができる。

ここで、意図トレーニングデータは意図トレーニングデータが表示されたトレーニングデータであり、スロットトレーニングデータはスロットが表示されたトレーニングデータであり、図スロットトレーニングデータは意図及びスロットが表示されたトレーニングデータである。

例示的な実施例では、トレーニングデータを使用して、初期の意味認識モデルをトレーニングして、トレーニングされた意味認識モデルを取得し、さらに、トレーニングされた意味認識モデル内のストリーミング意味符号化層、ストリーミング意味ベクトル融合層、及び意味理解マルチタスク層を認識する時のストリーミング意味符号化層、ストリーミング意味ベクトル融合層、及び意味理解マルチタスク層とする。

例示的な実施例では、以下のステップ５０３ａ～ステップ５０３ｃに示すような方式によって、トレーニングデータを使用して、初期の意味認識モデルをトレーニングすることができる。

ステップ５０３ａ、トレーニングデータが意図トレーニングデータ、スロットトレーニングデータ、及び意図スロットトレーニングデータを含む場合、意図スロットトレーニングデータを使用して、事前にトレーニングされたストリーミング意味符号化層、ストリーミング意味ベクトル融合層、及び意味理解マルチタスク層をトレーニングする。

ステップ５０３ｂ、意図トレーニングデータを使用して、事前にトレーニングされたストリーミング意味符号化層、ストリーミング意味ベクトル融合層、及び意味理解マルチタスク層内の意図認識ブランチをトレーニングする。

ステップ５０３ｃ、スロットトレーニングデータを使用して、事前にトレーニングされたストリーミング意味符号化層、ストリーミング意味ベクトル融合層、及び意味理解マルチタスク層内のスロット認識ブランチをトレーニングする。

具体的には、トレーニングデータが意図トレーニングデータ、スロットトレーニングデータ、及び意図スロットトレーニングデータを含む場合、意図スロットトレーニングデータを使用して、事前にトレーニングされたストリーミング意味符号化層、ストリーミング意味ベクトル融合層、及び意味理解マルチタスク層をトレーニングすることができ、このとき、全体の意味認識モデルに含まれる事前にトレーニングされたストリーミング意味符号化層、ストリーミング意味ベクトル融合層、及び意味理解マルチタスク層のパラメータはいずれもトレーニング更新に参加する。その後、意図トレーニングデータを使用して、事前にトレーニングされたストリーミング意味符号化層、ストリーミング意味ベクトル融合層、及び意味理解マルチタスク層内の意図認識ブランチをトレーニングして、事前にトレーニングされたストリーミング意味符号化層、ストリーミング意味ベクトル融合層のパラメータを更新し、意味理解マルチタスク層内の意図認識ブランチのパラメータを微調整する。その後、スロットトレーニングデータを使用して、事前にトレーニングされたストリーミング意味符号化層、ストリーミング意味ベクトル融合層、及び意味理解マルチタスク層内のスロット認識ブランチをトレーニングして、事前にトレーニングされたストリーミング意味符号化層、ストリーミング意味ベクトル融合層のパラメータを更新し、意味理解マルチタスク層内のスロット認識ブランチのパラメータを微調整する。

実際の応用シーンでは、スロットトレーニングデータを取得するコストは意図トレーニングデータを遥かに上回り、例えば、スロットトレーニングデータと意図トレーニングデータは、いずれかも人工的にタグ付けする方式、または自動マイニングの方法を使用して、同じ時間内に取得され、取得された高品質の意図トレーニングデータの数は、スロットトレーニングデータを遥かに上回る。同様に、意図スロットトレーニングデータを取得するコストも意図トレーニングデータを上回る。したがって、意図スロットトレーニングデータの数は意図トレーニングデータを遥かに下回る。意図スロットトレーニングデータのみに基づいて、意味認識モデルをトレーニングする場合、トレーニング効果は比較的悪い可能性がある。

本出願の実施例では、意図スロットトレーニングデータを使用して、事前にトレーニングされたストリーミング意味符号化層、ストリーミング意味ベクトル融合層、及び意味理解マルチタスク層から構成される意味認識モデルをトレーニングし、さらに、意図トレーニングデータを使用して、事前にトレーニングされたストリーミング意味符号化層、ストリーミング意味ベクトル融合層、及び意味理解マルチタスク層の意図認識ブランチトをレーニングし、さらに、スロットトレーニングデータを使用して、事前にトレーニングされたストリーミング意味符号化層、ストリーミング意味ベクトル融合層、及び意味理解マルチタスク層のスロット認識ブランチをトレーニングし、意図スロットトレーニングデータ、意図トレーニングデータ、スロットトレーニングデータを使用して、意味認識モードに対して混合トレーニングを行うことにより、大規模な意図トレーニングデータ、限られたスロットトレーニングデータ、及び意図スロットトレーニングデータを十分に使用して、意味認識モデルのトレーニング効果をさらに向上させることができる。

例示的な実施例では、ステップ５０３ａ、５０３ｂ、５０３ｃの実行順序は、他のいずれかの順序であってもよく、本出願はこれに限定されない。

本出願の実施例によって提供される意味認識方法は、順番に接続された事前にトレーニングされたストリーミング意味符号化層、ストリーミング意味ベクトル融合層、及び意味理解マルチタスク層を含む初期の意味認識モデル、及び意味認識モデルのトレーニングデータを取得した後、トレーニングデータを使用して、初期の意味認識モデルをトレーニングして、トレーニングされた意味認識モデルを取得し、さらに、トレーニングされた意味認識モデル内のストリーミング意味符号化層、ストリーミング意味ベクトル融合層、及び意味理解マルチタスク層を取得することができる。これにより、トレーニングされたストリーミング意味符号化層、ストリーミング意味ベクトル融合層、及び意味理解マルチタスク層を取得することを実現し、したがって、トレーニングされたストリーミング意味符号化層、ストリーミング意味ベクトル融合層、及び意味理解マルチタスク層を使用して、ユーザの音声に対して実体意味認識をリアルタイムに行うことができる。

以下、図６と併せて、本明によって提供される意味認識装置について説明する。

図６は本出願の第５の実施例に係る意味認識装置の概略構成図である。

図６に示すように、本出願によって提供される意味認識装置６００は、第１の取得モジュール６０１、第２の取得モジュール６０２、第３の取得モジュール６０３を備える。

ここで、第１取得モジュール６０１は処理対象の音声の音声認識結果を取得することに用いられ、ここで、音声認識結果は、新規認識結果セグメント及び履歴認識結果セグメントを含み、ここで、新規認識結果セグメントは処理対象の音声内の新規音声セグメントに対応する認識結果セグメントである。

第２の取得モジュール６０２は、履歴認識結果セグメント内の各履歴オブジェクトの意味ベクトルを取得し、各履歴オブジェクトの意味ベクトル及び新規認識結果セグメント内の各新規オブジェクトを、ストリーミング意味符号化層に入力して、各新規オブジェクトの意味ベクトルを取得することに用いられる。

第３の取得モジュール６０３は、各履歴オブジェクトの意味ベクトル及び各新規オブジェクトの意味ベクトルを、順番に配列されたストリーミング意味ベクトル融合層と意味理解マルチタスク層に入力し、処理対象の音声の意味認識結果を取得することに用いられる。

なお、本実施例によって提供される意味認識装置は、前記実施例の意味認識方法を実行することができる。ここで、意味認識装置は、電子機器であってもよいし、マンマシン音声インタラクションシステムの応答時間を短縮し、インタラクション効率を向上させ、ユーザ体験を改善するために、電子機器内に配置されてもよい。

ここで、電子機器は、データ処理を任意に行うことができる固定またはモバイルコンピューティングデバイス、例えば、ノートパソコン、スマートフォン、ウェアラブルデバイスなどのモバイルコンピューティングデバイス、またはデスクトップコンピュータなどの静止のコンピューティングデバイス、またはサーバ、または他のタイプのコンピューティングデバイスなどであってもよい。意味認識装置は、電子機器であってもよいし、または電子機器にインストールされる意味認識を行うためのアプリケーションであってもよいし、この意味認識アプリケーションの管理者、開発者が使用するこのアプリケーションを管理、維持するためのウェブページ、アプリケーションなどであってもよいし、本出願はこれに限定されない。

なお、前記意味認識方法の実施例の説明は、本出願によって提供される意味認識装置にも適用され、ここでは説明を省略する。

本出願の実施例によって提供される意味認識装置は、まず処理対象の音声の音声認識結果を取得し、さらに履歴認識結果セグメント内の各履歴オブジェクトの意味ベクトルを取得し、各履歴オブジェクトの意味ベクトル及び新規認識結果セグメント内の各新規オブジェクトを、ストリーミング意味符号化層に入力して、各新規オブジェクトの意味ベクトルを取得し、さらに、各履歴オブジェクトの意味ベクトル及び各新規オブジェクトの意味ベクトルを順番に配列されたストリーミング意味ベクトル融合層と意味理解マルチタスク層に入力して、処理対象の音声の意味認識結果を取得する。これにより、ユーザの音声に対するリアルタイムの意味認識を実現し、マンマシン音声インタラクションシステムの応答時間を短縮し、インタラクション効率を向上させ、ユーザ体験を改善する。

以下、図７と併せて、本出願によって提供される意味認識装置について説明する。

図７は本願の第６の実施例に係る意味認識装置の概略構成図である。

図７に示すように、意味認識装置７００は、具体的には、第１の取得モジュール７０１、第２の取得モジュール７０２、第３の取得モジュール７０３を備え、ここで、図７の７０１～７０３は、図６の６０１～６０３と同じ機能を有する。

例示的な実施例では、図７に示すように、第２の取得モジュール７０２は、具体的には、第１の取得ユニット７０２１、処理ユニット７０２２、第２の取得ユニット７０２３を備えることができる。

ここで、第１の取得ユニット７０２１は、各新規オブジェクトのスプライシングベクトルを取得することに用いられ、スプライシングベクトルは新規オブジェクトのオブジェクトベクトル及び位置ベクトルに基づいてスプライシングすることによって取得される。

処理ユニット７０２２は、ストリーミング意味符号化層内の各履歴オブジェクトの中間結果に対して初期化設定を行い、設定されたストリーミング意味符号化層を取得することに用いられる。

第２の取得ユニット７０２３は、各新規オブジェクトのスプライシングベクトルを設定されたストリーミング意味符号化層に入力して、各新規オブジェクトの意味ベクトルを取得することに用いられる。

例示的な実施例では、図７に示すように、上記第３の取得モジュール７０３は、第３の取得ユニット７０３１、第４の取得ユニット７０３２を備えることができる。

ここで、第３の取得ユニット７０３１は、各履歴オブジェクトの意味ベクトル及び各新規オブジェクトの意味ベクトルをストリーミング意味ベクトル融合層に入力して、各履歴オブジェクトの融合意味ベクトル、及び各新規オブジェクトの融合意味ベクトルを取得することに用いられる。ここで、新規オブジェクトの融合意味ベクトルは、新規オブジェクト及び以前のオブジェクトに対して意味ベクトル融合を行うことによって取得される。

第４の取得ユニット７０３２は、各履歴オブジェクトの融合意味ベクトル及び各新規オブジェクトの融合意味ベクトルを意味理解マルチタスク層に入力して、処理対象の音声の意味認識結果を取得する。

例示的な実施例では、意味理解マルチタスク層は、意図認識ブランチ及びスロット認識ブランチを含み、これに応じて、上記第４の取得ユニットは、第１の取得サブユニット、第２の取得サブユニット、及び生成サブユニットを備えることができる。

ここで、第１の取得サブユニットは、各新規オブジェクトのうち最後にソートされた第１の新規オブジェクトの融合意味ベクトルを意図認識ブランチに入力して、処理対象の音声の意図認識結果を取得する。

第２の取得サブユニットは、各履歴オブジェクトの融合意味ベクトル及び各新規オブジェクトの融合意味ベクトルをスロット認識ブランチに入力して、処理対象の音声のスロット認識結果を取得することに用いられる。

生成サブユニットは意図認識結果及びスロット認識結果に基づいて、処理対象の音声の意味認識結果を生成することに用いられる。

例示的な実施例では、図７に示すように、意味認識装置７００は、第４の取得モジュール７０４、第５の取得モジュール７０５、トレーニングモジュール７０６、及び第６の取得モジュール７０７をさらに備えることができる。

ここで、第４の取得モジュール７０４は、順番に接続された事前にトレーニングされたストリーミング意味符号化層、ストリーミング意味ベクトル融合層、及び意味理解マルチタスク層を含む初期の意味認識モデルを取得することに用いられる。

第５の取得モジュール７０５は、意味認識モデルのトレーニングデータを取得することに用いられる。

トレーニングモジュール７０６は、トレーニングデータを使用して初期の意味認識モデルをトレーニングして、トレーニングされた意味認識モデルを取得することに用いられる。

第６の取得モジュール７０７は、トレーニングされた意味認識モデル内のストリーミング意味符号化層、ストリーミング意味ベクトル融合層、及び意味理解マルチタスク層を取得することに用いられる。

例示的な実施例では、トレーニングデータは、意図トレーニングデータ、スロットトレーニングデータ、及び意図スロットトレーニングデータのうちの少なくとも１つを含み、それに応じて、トレーニングモジュール７０６は、トレーニングデータが意図トレーニングデータ、スロットトレーニングデータ、及び意図スロットトレーニングデータを含む場合、意図スロットトレーニングデータを使用して、事前にトレーニングされたストリーミング意味符号化層、ストリーミング意味ベクトル融合層、及び意味理解マルチタスク層をトレーニングするための第１のトレーニングユニットと、意図トレーニングデータを使用して、事前にトレーニングされたストリーミング意味符号化層、ストリーミング意味ベクトル融合層、及び意味理解マルチタスク層内の意図認識ブランチをトレーニングするための第２のトレーニングユニットと、スロットトレーニングデータを使用して、事前にトレーニングされたストリーミング意味符号化層、ストリーミング意味ベクトル融合層、及び意味理解マルチタスク層内のスロット認識ブランチをトレーニングするための第３のトレーニングユニットと、を備えることができる。

例示的な実施例では、第４の取得モジュール７０４は、初期のストリーミング意味符号化層を取得するための第５の取得ユニットと、予め設定された数よりも大きいオブジェクトシーケンスを含む事前トレーニングデータを取得するための第６の取得ユニットと、初期のストリーミング意味符号化層に基づいて事前トレーニングモデルを構築するための構築ユニットと、事前トレーニングデータを使用して事前トレーニングモデルをトレーニングして、トレーニングされた事前トレーニングモデル内のストリーミング意味符号化層を取得するための第４のトレーニングユニットと、を備えることができる。

例示的な実施例では、上記第１の取得モジュール７０１は、処理対象の音声を音節認識モデルに入力して、処理対象の音声の音節認識結果を取得し、及び音節認識結果を処理対象の音声の音声認識結果とするための第７の取得ユニットを備えることができる。

例示的な実施例では、上記ストリーミング意味符号化層はｔｒａｎｓｆｏｒｍｅｒモデルの多層符号化層を含み、符号化層はマスク付きのマルチヘッドアテンションメカニズムを含み、上記ストリーミング意味ベクトル融合層は、一方向ＬＳＴＭ層である。

なお、上記意味認識方法の実施例の説明は、本出願によって提供される意味認識装置にも適用され、ここでは説明を省略する。

本出願の実施例によって提供される意味認識装置は、まず処理対象の音声の音声認識結果を取得し、さらに履歴認識結果セグメント内の各履歴オブジェクトの意味ベクトルを取得し、各履歴オブジェクトの意味ベクトル及び新規認識結果セグメント内の各新規オブジェクトを、ストリーミング意味符号化層に入力して、各新規オブジェクトの意味ベクトルを取得し、さらに、各履歴オブジェクトの意味ベクトル及び各新規オブジェクトの意味ベクトルを、順番に配列されたストリーミング意味ベクトル融合層と意味理解マルチタスク層に入力して、処理対象の音声の意味認識結果を取得する。これにより、ユーザの音声に対するリアルタイムの意味認識を実現し、マンマシン音声インタラクションシステムの応答時間を短縮し、インタラクション効率を向上させ、ユーザ体験を改善する。

本出願の実施例によれば、本出願は、電子機器及び読み取り可能な記憶媒体をさらに提供する。
本出願の実施例によれば、本出願は、コンピュータプログラムを提供し、コンピュータプログラムは、コンピュータに本出願によって提供される意味認識方法を実行させる。

図８に示すように、本出願の実施形態に係る意味認識方法のブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、及び他の適切なコンピュータなどの様々な形態のデジタルコンピュータを表すことを目的とする。電子機器は、パーソナルデジタルプロセッサ、携帯電話、スマートフォン、ウェアラブルデバイス、他の同様のコンピューティングデバイスなどの様々な形態のモバイルデバイスを表すこともできる。本明細書で示されるコンポーネント、それらの接続と関係、及びそれらの機能は単なる例であり、本明細書の説明及び／又は要求される本出願の実現を制限することを意図したものではない。

図８に示すように、当該電子機器は、１つ又は複数のプロセッサ８０１と、メモリ８０２と、高速インターフェース及び低速インターフェースを備える、各コンポーネントを接続するためのインターフェースと、を備える。各コンポーネントは、異なるバスで相互に接続され、共通のマザーボードに取り付けられるか、又は必要に応じて他の方式で取り付けることができる。プロセッサは、外部入力／出力装置（インターフェースに結合されたディスプレイデバイスなど）にＧＵＩの図形情報をディスプレイするためにメモリ内又はメモリに記憶されている命令を含む、電子機器内に実行される命令を処理することができる。他の実施形態では、必要であれば、複数のプロセッサ及び／又は複数のバスを、複数のメモリとともに使用することができる。同様に、複数の電子機器を接続することができ、各電子機器は、部分的な必要な操作（例えば、サーバアレイ、ブレードサーバ、又はマルチプロセッサシステムとする）を提供する。図８では、１つのプロセッサ８０１を例とする。

メモリ８０２は、本出願により提供される非一時的なコンピュータ読み取り可能な記憶媒体である。ここで、前記メモリには、少なくとも１つのプロセッサが本出願により提供される意味認識方法を実行するように、前記少なくとも１つのプロセッサによって実行可能な命令が記憶されている。本出願の非一時的なコンピュータ読み取り可能な記憶媒体には、コンピュータに本出願により提供される意味認識方法を実行させるためのコンピュータ命令が記憶されている。

メモリ８０２は、非一時的なコンピュータ読み取り可能な記憶媒体として、本出願の実施例における意味認識方法に対応するプログラム命令／モジュール（例えば、図６に示す第１の取得モジュール６０１、第２の取得モジュール６０２、第３の取得モジュール６０３）のような、非一時的なソフトウェアプログラム、非一時的なコンピュータ実行可能なプログラム及びモジュールを記憶する。プロセッサ８０１は、メモリ８０２に記憶されている非一時的なソフトウェアプログラム、命令及びモジュールを実行することによって、サーバの様々な機能アプリケーション及びデータ処理を実行し、すなわち上記方法の実施例における意味認識方法を実現する。

メモリ８０２は、プログラム記憶領域とデータ記憶領域とを含むことができ、ここで、プログラム記憶領域は、オペレーティングシステム、少なくとも１つの機能に必要なアプリケーションプログラムを記憶することができ、データ記憶領域は、意味認識方法の電子機器の使用によって作成されたデータなどを記憶することができる。また、メモリ８０２は、高速ランダムアクセスメモリを備えることができ、非一時的なメモリをさらに含むことができ、例えば、少なくとも１つのディスクストレージデバイス、フラッシュメモリデバイス、又は他の非一時的なソリッドステートストレージデバイスである。いくつかの実施例では、メモリ８０２は、プロセッサ８０１に対して遠隔に設定されたメモリを選択的に備えることができ、これらの遠隔メモリは、ネットワークを介してこの電子機器に接続されることができる。上記ネットワークの例は、インターネット、イントラネット、ローカルエリアネットワーク、モバイル通信ネットワーク、及びその組み合わせを含むが、これらに限定されない。

意味認識方法の電子機器は、入力装置８０３と出力装置８０４とをさらに備えることができる。プロセッサ８０１、メモリ８０２、入力装置８０３、及び出力装置８０４は、バス又は他の方式を介して接続することができ、図８では、バスによる接続を例とする。

入力装置８０３は、入力された数字又は文字情報を受信し、この電子機器のユーザ設定及び機能制御に関するキー信号入力を生成することができ、例えば、タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、ポインティングスティック、１つ又は複数のマウスボタン、トラックボール、ジョイスティックなどの入力装置である。出力装置８０４は、ディスプレイデバイス、補助照明デバイス（例えば、ＬＥＤ）、及び触覚フィードバックデバイス（例えば、振動モータ）などを備えることができる。当該ディスプレイデバイスは、液晶ディスプレイ（ＬＣＤ）、発光ダイオード（ＬＥＤ）ディスプレイ、及びプラズマディスプレイを備えることができるが、これらに限定されない。いくつかの実施形態では、ディスプレイデバイスは、タッチスクリーンであってもよい。

本明細書で説明されるシステムと技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、特定用途向けＡＳＩＣ（特定用途向け集積回路）、コンピュータハードウェア、ファームウェア、ソフトウェア、及び／又はそれらの組み合わせで実現することができる。これらの様々な実施形態は、１つ又は複数のコンピュータプログラムで実施され、当該１つ又は複数のコンピュータプログラムは、少なくとも１つのプログラマブルプロセッサを備えるプログラム可能なシステムで実行及び／又は解釈されることができ、当該プログラマブルプロセッサは、専用又は汎用のプログラマブルプロセッサであってもよく、ストレージシステム、少なくとも１つの入力装置、及び少なくとも１つの出力装置からデータ及び命令を受信し、データ及び命令を当該ストレージシステム、当該少なくとも１つの入力装置、及び当該少なくとも１つの出力装置に伝送することができる。

これらのコンピューティングプログラム（プログラム、ソフトウェア、ソフトウェアアプリケーション、又はコードとも呼ばれる）は、プログラマブルプロセッサの機械命令を含み、高度プロセス及び／又はオブジェクト指向プログラミング言語、及び／又はアセンブリ／機械言語でこれらのコンピューティングプログラムを実施することができる。本明細書に使用されるような、「機械読み取り可能な媒体」及び「コンピュータ読み取り可能な媒体」という用語は、機械命令及び／又はデータをプログラマブルプロセッサに提供するために使用される任意のコンピュータプログラム製品、機器、及び／又は装置（例えば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス（ＰＬＤ））を指し、機械読み取り可能な信号である機械命令を受信する機械読み取り可能な媒体を含む。「機械読み取り可能な信号」という用語は、機械命令及び／又はデータをプログラマブルプロセッサに提供するための任意の信号を指す。

ユーザとのインタラクションを提供するために、ここで説明されているシステム及び技術をコンピュータ上で実施することができ、当該コンピュータは、ユーザに情報を表示するためのディスプレイ装置（例えば、ＣＲＴ（陰極線管）又はＬＣＤ（液晶ディスプレイ）モニタ）と、キーボード及びポインティングデバイス（例えば、マウス又はトラックボール）とを有し、ユーザは、当該キーボード及び当該ポインティングデバイスによって入力をコンピュータに提供することができる。他の種類の装置は、ユーザとのインタラクションを提供することもでき、例えば、ユーザに提供されるフィードバックは、任意の形態のセンシングフィードバック（例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック）であってもよく、任意の形態（音響入力と、音声入力と、触覚入力とを含む）でユーザからの入力を受信することができる。

ここで説明されるシステム及び技術は、バックエンドコンポーネントを備えるコンピューティングシステム（例えば、データサーバとする）、又はミドルウェアコンポーネントを備えるコンピューティングシステム（例えば、アプリケーションサーバ）、又はフロントエンドコンポーネントを備えるコンピューティングシステム（例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータ、ユーザは、当該グラフィカルユーザインタフェース又は当該ウェブブラウザによってここで説明されるシステム及び技術の実施形態とインタラクションする）、又はこのようなバックエンドコンポーネントと、ミドルウェアコンポーネントと、フロントエンドコンポーネントの任意の組み合わせを備えるコンピューティングシステムで実施することができる。任意の形態又は媒体のデジタルデータ通信（例えば、通信ネットワーク）によってシステムのコンポーネントを相互に接続することができる。通信ネットワークの例は、ローカルエリアネットワーク（ＬＡＮ）と、ワイドエリアネットワーク（ＷＡＮ）と、インターネットとを含む。

コンピュータシステムは、クライアントとサーバとを備えることができる。クライアントとサーバは、一般に、互いに離れており、通常に通信ネットワークを介してインタラクションする。対応するコンピュータ上で実行され、互いにクライアント－サーバ関係を有するコンピュータプログラムによってクライアントとサーバとの関係が生成される。

本出願は人工知能技術分野に関し、特に深層学習、自然言語処理技術分野に関する。

なお、人工知能はコンピュータが人間のある思考過程及び知能行為（例えば、学習、推理、思考、計画など）の科学をシミュレーションするようにし、ハードウェアレベルの技術もソフトウェアレベルの技術もある。人工知能ハードウェア技術は一般的には、センサー、専用人工知能チップ、クラウド計算、分散式記憶、ビッグデータ処理などの技術を含む。人工知能ソフトウェア技術は主にコンピュータ視覚、音声認識技術、自然言語処理技術及び機械学習／深層学習、ビッグデータ処理技術、知識図鑑技術などのいくつかの方向を含む。

本出願の実施例の技術案によれば、ユーザの音声に対するリアルタイムの意味認識を実現し、マンマシン音声インタラクションシステムの応答時間を短縮し、インタラクション効率を向上させ、ユーザ体験を改善する。

なお、上記に示される様々な形態のフローを使用して、ステップを並べ替え、追加、又は削除することができることを理解されたい。例えば、本出願に記載されている各ステップは、並列に実行されてもよいし、順番に的に実行されてもよいし、異なる順序で実行されてもよいが、本出願で開示されている技術案の所望の結果を実現することができれば、本明細書では限定されない。

Claims

処理対象の音声の音声認識結果を取得するステップであって、前記音声認識結果には、新規認識結果セグメント及び履歴認識結果セグメントが含まれ、前記新規認識結果セグメントが、前記処理対象の音声内の新規音声セグメントに対応する認識結果セグメントであるステップと、
前記履歴認識結果セグメント内の各履歴オブジェクトの意味ベクトルを取得し、前記各履歴オブジェクトの意味ベクトル及び前記新規認識結果セグメント内の各新規オブジェクトをストリーミング意味符号化層に入力して、前記各新規オブジェクトの意味ベクトルを取得するステップと、
前記各履歴オブジェクトの意味ベクトル及び前記各新規オブジェクトの意味ベクトルを、順番に配列されたストリーミング意味ベクトル融合層及び意味理解マルチタスク層に入力して、前記処理対象の音声の意味認識結果を取得するステップと、
を含む意味認識方法。
前記各履歴オブジェクトの意味ベクトル及び前記新規認識結果セグメント内の各新規オブジェクトをストリーミング意味符号化層に入力して、前記各新規オブジェクトの意味ベクトルを取得するステップが、
前記各新規オブジェクトのスプライシングベクトルを取得するステップであって、前記スプライシングベクトルが、新規オブジェクトのオブジェクトベクトル及び位置ベクトルに基づいてスプライシングすることによって取得されるステップと、
前記各履歴オブジェクトの意味ベクトルに基づいて、前記ストリーミング意味符号化層における前記各履歴オブジェクトの中間結果に対して初期化設定を行って、設定されたストリーミング意味符号化層を取得するステップと、
前記各新規オブジェクトのスプライシングベクトルを前記設定されたストリーミング意味符号化層に入力して、前記各新規オブジェクトの意味ベクトルを取得するステップと、
を含む請求項１に記載の意味認識方法。
前記各履歴オブジェクトの意味ベクトル及び前記各新規オブジェクトの意味ベクトルを、順番に配列されたストリーミング意味ベクトル融合層及び意味理解マルチタスク層に入力して、前記処理対象の音声の意味認識結果を取得するステップが、
前記各履歴オブジェクトの意味ベクトル及び前記各新規オブジェクトの意味ベクトルを前記ストリーミング意味ベクトル融合層に入力して、前記各履歴オブジェクトの融合意味ベクトル、及び前記各新規オブジェクトの融合意味ベクトルを取得するステップであって、新規オブジェクトの融合意味ベクトルが、前記新規オブジェクト及び以前のオブジェクトに対して意味ベクトル融合を行うことによって取得されるステップと、
前記各履歴オブジェクトの融合意味ベクトル及び前記各新規オブジェクトの融合意味ベクトルを前記意味理解マルチタスク層に入力して、前記処理対象の音声の意味認識結果を取得するステップと、
を含む請求項１に記載の意味認識方法。
前記意味理解マルチタスク層が、意図認識ブランチ及びスロット認識ブランチを含み、
前記各履歴オブジェクトの融合意味ベクトル及び前記各新規オブジェクトの融合意味ベクトルを前記意味理解マルチタスク層に入力して、前記処理対象の音声の意味認識結果を取得するステップが、
前記各新規オブジェクトのうち最後にソートされた第１の新規オブジェクトの融合意味ベクトルを前記意図認識ブランチに入力して、前記処理対象の音声の意図認識結果を取得するステップと、
前記各履歴オブジェクトの融合意味ベクトル及び前記各新規オブジェクトの融合意味ベクトルを前記スロット認識ブランチに入力して、前記処理対象の音声のスロット認識結果を取得するステップと、
前記意図認識結果及び前記スロット認識結果に基づいて、前記処理対象の音声の意味認識結果を生成するステップと、
を含む請求項３に記載の意味認識方法。
前記各履歴オブジェクトの意味ベクトル及び前記新規認識結果セグメント内の各新規オブジェクトをストリーミング意味符号化層に入力して、各新規オブジェクトの意味ベクトルを取得するステップの前に、
順番に接続された事前にトレーニングされたストリーミング意味符号化層、ストリーミング意味ベクトル融合層及び意味理解マルチタスク層を含む初期の意味認識モデルを取得するステップと、
前記意味認識モデルのトレーニングデータを取得するステップと、
前記トレーニングデータを使用して前記初期の意味認識モデルをトレーニングして、トレーニングされた意味認識モデルを取得するステップと、
前記トレーニングされた意味認識モデル内のストリーミング意味符号化層、ストリーミング意味ベクトル融合層及び意味理解マルチタスク層を取得するステップと、
を含む請求項１に記載の意味認識方法。
前記トレーニングデータが、意図トレーニングデータ、スロットトレーニングデータ及び意図スロットトレーニングデータのうちの少なくとも１つを含み、
前記トレーニングデータを使用して前記初期の意味認識モデルをトレーニングして、トレーニングされた意味認識モデルを取得するステップが、
前記トレーニングデータが意図トレーニングデータ、スロットトレーニングデータ及び意図スロットトレーニングデータを含む場合、前記意図スロットトレーニングデータを使用して、前記事前にトレーニングされたストリーミング意味符号化層、前記ストリーミング意味ベクトル融合層及び前記意味理解マルチタスク層をトレーニングするステップと、
前記意図トレーニングデータを使用して、前記事前にトレーニングされたストリーミング意味符号化層、前記ストリーミング意味ベクトル融合層及び前記意味理解マルチタスク層内の意図認識ブランチをトレーニングするステップと、
前記スロットトレーニングデータを使用して、前記事前にトレーニングされたストリーミング意味符号化層、前記ストリーミング意味ベクトル融合層及び前記意味理解マルチタスク層内のスロット認識ブランチをトレーニングするステップと、
を含む請求項５に記載の意味認識方法。
前記事前にトレーニングされたストリーミング意味符号化層が、
初期のストリーミング意味符号化層を取得するステップと、
予め設定された数より大きいオブジェクトシーケンスを含む事前トレーニングデータを取得するステップと、
前記初期のストリーミング意味符号化層に基づいて事前トレーニングモデルを構築するステップと、
前記事前トレーニングデータを使用して、前記事前トレーニングモデルをトレーニングして、トレーニングされた事前トレーニングモデル内のストリーミング意味符号化層を取得するステップと、
を含む方法によって取得される請求項５に記載の意味認識方法。
前記処理対象の音声の音声認識結果を取得するステップが、
前記処理対象の音声を音節認識モデルに入力して、前記処理対象の音声の音節認識結果を取得するステップと、
前記音節認識結果を前記処理対象の音声の音声認識結果とするステップと、
を含む請求項１に記載の意味認識方法。
前記ストリーミング意味符号化層が、翻訳（ｔｒａｎｓｆｏｒｍｅｒ）モデルの多層符号化層を含み、前記符号化層が、マスク付きのマルチヘッドアテンションメカニズムを含み、
前記ストリーミング意味ベクトル融合層が、一方向長短期記憶ネットワーク（ＬＳＴＭ）層である請求項１に記載の意味認識方法。
処理対象の音声の音声認識結果を取得するための第１の取得モジュールであって、前記音声認識結果には、新規認識結果セグメント及び履歴認識結果セグメントが含まれ、前記新規認識結果セグメントが、前記処理対象の音声内の新規音声セグメントに対応する認識結果セグメントである第１の取得モジュールと、
前記履歴認識結果セグメント内の各履歴オブジェクトの意味ベクトルを取得し、前記各履歴オブジェクトの意味ベクトル及び前記新規認識結果セグメント内の各新規オブジェクトをストリーミング意味符号化層に入力して、前記各新規オブジェクトの意味ベクトルを取得するための第２の取得モジュールと、
前記各履歴オブジェクトの意味ベクトル及び前記各新規オブジェクトの意味ベクトルを、順番に配列されたストリーミング意味ベクトル融合層及び意味理解マルチタスク層に入力して、前記処理対象の音声の意味認識結果を取得するための第３の取得モジュールと、
を備える意味認識装置。
前記第２の取得モジュールが、
前記各新規オブジェクトのスプライシングベクトルを取得するための第１の取得ユニットであって、前記スプライシングベクトルが、新規オブジェクトのオブジェクトベクトル及び位置ベクトルに基づいてスプライシングすることによって取得される第１の取得ユニットと、
前記各履歴オブジェクトの意味ベクトルに基づいて、前記ストリーミング意味符号化層における前記各履歴オブジェクトの中間結果に対して初期化設定を行って、設定されたストリーミング意味符号化層を取得するための処理ユニットと、
前記各新規オブジェクトのスプライシングベクトルを前記設定されたストリーミング意味符号化層に入力して、前記各新規オブジェクトの意味ベクトルを取得するための第２の取得ユニットと、
を備える請求項１０に記載の意味認識装置。
前記第３の取得モジュールが、
前記各履歴オブジェクトの意味ベクトル及び前記各新規オブジェクトの意味ベクトルを前記ストリーミング意味ベクトル融合層に入力して、前記各履歴オブジェクトの融合意味ベクトル、及び前記各新規オブジェクトの融合意味ベクトルを取得するための第３の取得ユニットであって、新規オブジェクトの融合意味ベクトルが、前記新規オブジェクト及び以前のオブジェクトに対して意味ベクトル融合を行うことによって取得される第３の取得ユニットと、
前記各履歴オブジェクトの融合意味ベクトル及び前記各新規オブジェクトの融合意味ベクトルを前記意味理解マルチタスク層に入力して、前記処理対象の音声の意味認識結果を取得するための第４の取得ユニットと、
を備える請求項１０に記載の意味認識装置。
前記意味理解マルチタスク層が、意図認識ブランチ及びスロット認識ブランチを含み、
前記第４の取得ユニットが、
前記各新規オブジェクトのうち最後にソートされた第１の新規オブジェクトの融合意味ベクトルを前記意図認識ブランチに入力して、前記処理対象の音声の意図認識結果を取得するための第１の取得サブユニットと、
前記各履歴オブジェクトの融合意味ベクトル及び前記各新規オブジェクトの融合意味ベクトルを前記スロット認識ブランチに入力して、前記処理対象の音声のスロット認識結果を取得するための第２の取得サブユニットと、
前記意図認識結果及び前記スロット認識結果に基づいて、前記処理対象の音声の意味認識結果を生成するための生成サブユニットと、
を備える請求項１２に記載の意味認識装置。
順番に接続された事前にトレーニングされたストリーミング意味符号化層、ストリーミング意味ベクトル融合層及び意味理解マルチタスク層を含む初期の意味認識モデルを取得するための第４の取得モジュールと、
前記初期の意味認識モデルのトレーニングデータを取得するための第５の取得モジュールと、
前記トレーニングデータを使用して前記初期の意味認識モデルをトレーニングして、トレーニングされた意味認識モデルを取得するためのトレーニングモジュールと、
前記トレーニングされた意味認識モデル内のストリーミング意味符号化層、ストリーミング意味ベクトル融合層及び意味理解マルチタスク層を取得するための第６の取得モジュールと、
を備える請求項１０に記載の意味認識装置。
前記トレーニングデータが、意図トレーニングデータ、スロットトレーニングデータ及び意図スロットトレーニングデータのうちの少なくとも１つを含み、
前記トレーニングモジュールが、
前記トレーニングデータが意図トレーニングデータ、スロットトレーニングデータ及び意図スロットトレーニングデータを含む場合、前記意図スロットトレーニングデータを使用して、前記事前にトレーニングされたストリーミング意味符号化層、前記ストリーミング意味ベクトル融合層及び前記意味理解マルチタスク層をトレーニングするための第１のトレーニングユニットと、
前記意図トレーニングデータを使用して、前記事前にトレーニングされたストリーミング意味符号化層、前記ストリーミング意味ベクトル融合層及び前記意味理解マルチタスク層内の意図認識ブランチをトレーニングするための第２のトレーニングユニットと、
前記スロットトレーニングデータを使用して、前記事前にトレーニングされたストリーミング意味符号化層、前記ストリーミング意味ベクトル融合層及び前記意味理解マルチタスク層内のスロット認識ブランチをトレーニングするための第３のトレーニングユニットと、
を備える請求項１４に記載の意味認識装置。
前記第４の取得モジュールが、
初期のストリーミング意味符号化層を取得するための第５の取得ユニットと、
予め設定された数よりも大きいオブジェクトシーケンスを含む事前トレーニングデータを取得するための第６の取得ユニットと、
前記初期のストリーミング意味符号化層に基づいて事前トレーニングモデルを構築するための構築ユニットと、
前記事前トレーニングデータを使用して前記事前トレーニングモデルをトレーニングして、トレーニングされた事前トレーニングモデル内のストリーミング意味符号化層を取得するための第４のトレーニングユニットと、
を備える請求項１４に記載の意味認識装置。
前記第１の取得モジュールが、
前記処理対象の音声を音節認識モデルに入力して、前記処理対象の音声の音節認識結果を取得し、前記音節認識結果を前記処理対象の音声の音声認識結果とするための第７の取得ユニットを備える請求項１０に記載の意味認識装置。
前記ストリーミング意味符号化層が、翻訳（ｔｒａｎｓｆｏｒｍｅｒ）モデルの多層符号化層を含み、前記符号化層が、マスク付きのマルチヘッドアテンションメカニズムを含み、
前記ストリーミング意味ベクトル融合層が、一方向長短期記憶ネットワーク（ＬＳＴＭ）層である請求項１０に記載の意味認識装置。
少なくとも１つのプロセッサと、
該少なくとも１つのプロセッサに通信可能に接続されるメモリと、
を備え、
前記メモリには、前記少なくとも１つのプロセッサによって実行可能な命令が記憶され、前記命令が、前記少なくとも１つのプロセッサが請求項１から９のいずれか一項に記載の方法を実行できるように、前記少なくとも１つのプロセッサによって実行される電子機器。
コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、
前記コンピュータ命令は、コンピュータに請求項１から９のいずれか一項に記載の方法を実行させる非一時的なコンピュータ読み取り可能な記憶媒体。
コンピュータに請求項１から９のいずれか一項に記載の方法を実行させるコンピュータプログラム。