JP2022020051A - 意味認識方法、装置、機器及び記憶媒体 - Google Patents

意味認識方法、装置、機器及び記憶媒体 Download PDF

Info

Publication number
JP2022020051A
JP2022020051A JP2021168564A JP2021168564A JP2022020051A JP 2022020051 A JP2022020051 A JP 2022020051A JP 2021168564 A JP2021168564 A JP 2021168564A JP 2021168564 A JP2021168564 A JP 2021168564A JP 2022020051 A JP2022020051 A JP 2022020051A
Authority
JP
Japan
Prior art keywords
meaning
vector
semantic
recognition
recognition result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2021168564A
Other languages
English (en)
Other versions
JP7280930B2 (ja
Inventor
ユファン ウー,
Yufang Wu
キン クー,
Qin Qu
キボ ワン,
Qibo Wang
チェンジャン マン,
Chengjian Man
キガン ザン,
Qiguang Zang
シャオイン フー,
Xiaoyin Fu
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2022020051A publication Critical patent/JP2022020051A/ja
Application granted granted Critical
Publication of JP7280930B2 publication Critical patent/JP7280930B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/027Syllables being the recognition units
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Machine Translation (AREA)

Abstract

【課題】ユーザの音声に対するリアルタイムの意味認識を実現し、マンマシン音声インタラクションシステムの応答時間を短縮し、インタラクション効率を向上させ、ユーザ体験を改善する意味認識方法、装置、電子機器及び記憶媒体を提供する。【解決手段】方法は、処理対象の音声の音声認識結果を取得する。音声認識結果は、新規認識結果セグメント及び履歴認識結果セグメントを含む。方法はさらに、履歴認識結果セグメント内の各履歴オブジェクトの意味ベクトルを取得し、各履歴オブジェクトの意味ベクトル及び新規認識結果セグメント内の各新規オブジェクトをストリーミング意味符号化層に入力し、各新規オブジェクトの意味ベクトルを取得し、各履歴オブジェクトの意味ベクトル及び各新規オブジェクトの意味ベクトルを、順番に配列されたストリーミング意味ベクトル融合層と意味理解マルチタスク層に入力して、処理対象の音声の意味認識結果を取得する。【選択図】図1

Description

本出願は人工知能技術分野に関し、特に深層学習、自然言語処理技術分野に関し、特に意味認識方法、装置、電子機器及び記憶媒体に関する。
人工知能技術の発展に伴い、マンマシン音声のインタラクションも大きな進展を遂げてきて、意味認識は自然言語処理技術分野における最も重要な一環として、知能対話システムや知能応答システムなどのマンマシン音声インタラクションシステムに広く応用されている。
現在、意味認識を行う場合、通常、ユーザの一言全体の音声認識結果を取得した後、一言全体の音声認識結果に対する意味解析を開始する。このように、マンマシン音声インタラクションシステムの応答時間が長く、マンマシンインタラクション効率が低く、ユーザの体験が悪い。
本開示は、意味認識方法、装置、機器、及び記憶媒体を提供する。
本開示の1態様によれば、意味認識方法を提供し、処理対象の音声の音声認識結果を取得するステップであって、前記音声認識結果には、新規認識結果セグメント及び履歴認識結果セグメントが含まれ、前記新規認識結果セグメントが、前記処理対象の音声内の新規音声セグメントに対応する認識結果セグメントであるステップと、前記履歴認識結果セグメント内の各履歴オブジェクトの意味ベクトルを取得し、各履歴オブジェクトの意味ベクトル及び新規認識結果セグメント内の各新規オブジェクトをストリーミング意味符号化層オに入力して、各新規オブジェクトの意味ベクトルを取得するステップと、前記各履歴オブジェクトの意味ベクトル及び各新規オブジェクトの意味ベクトルを、順番に配列されたストリーミング意味融合層と意味理解マルチタスク層に入力して、前記処理対象の音声の意味認識結果を取得するステップと、を含む。
本開示の別の態様によれば、意味認識装置を提供し、処理対象の音声の音声認識結果を取得するための第1の取得モジュールであって、前記音声認識結果が、新規認識結果セグメント及び履歴認識結果セグメントを含み、新規認識結果セグメントが、前記処理対象の音声内の新規音声セグメントに対応する認識結果セグメントである第1の取得モジュールと、前記履歴認識結果セグメント内の各履歴オブジェクトの意味ベクトルを取得し、前記各履歴オブジェクトの意味ベクトル及び前記新規認識結果セグメント内の各新規オブジェクトをストリーミング意味符号化層に入力して、各新規オブジェクトの意味ベクトルを取得するための第2の取得モジュールと、前記各履歴オブジェクトの意味ベクトル及び前記各新規オブジェクトの意味ベクトルを、順番に配列されたストリーミング意味ベクトル融合層と意味理解マルチタスク層に入力して、処理対象の音声の意味認識結果を取得するための第3の取得モジュールと、を備える。
本開示の別の態様によれば、電子機器を提供し、前記電子機器は、少なくとも1つのプロセッサと、該少なくとも1つのプロセッサに通信可能に接続されるメモリと、を備え、前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶されており、前記命令が前記少なくとも1つのプロセッサのいずれかが上記意味認識方法を実行できるように、前記少なくとも1つのプロセッサによって実行される。
本開示の別の態様によれば、コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体がさらに提供され、前記コンピュータ命令が、コンピュータに上記意味認識方法を実行させることに用いられる。
本開示の別の態様によれば、コンピュータプログラムを提供し、前記コンピュータプログラムは、コンピュータに上記意味認識方法を実行させる。
本出願の技術によれば、ユーザの音声に対するリアルタイムの意味認識を実現し、マンマシン音声インタラクションシステムの応答時間を短縮し、インタラクション効率を向上させ、ユーザ体験を改善する。
なお、この部分で説明された内容は、本出願の実施例の肝心又は重要な特徴を限定することを意図するものではなく、本出願の範囲を限定することを意図するものでもない。本出願の他の特徴は、以下の説明によって容易に理解されやすくなる。
図面は、本技術案をよりよく理解するためのものであり、本出願を限定するものではない。
本出願の第1の実施例に係る概略図である。 本出願の第2の実施例に係る概略図である。 本出願の第3の実施例に係る概略図である。 本出願の実施例に係る意味認識装置のブロック図である。 本出願の第4の実施例に係る概略図である。 本出願の第5の実施例に係る概略図である。 本出願の第6の実施例に係る概略図である。 本出願の実施例の意味認識方法を実現するための電子機器のブロック図である。
以下、図面を参照して本出願の例示的な実施例を説明し、理解を容易にするためにその中には本出願の実施例の様々な詳細事項を含んでおり、それらは単なる例示的なものと見なされるべきである。したがって、当業者は、本出願の範囲及び精神から逸脱することなく、ここで説明される実施例に対して様々な変更及び修正を行うことができることを認識されたい。同様に、明確及び簡潔にするために、以下の説明では、周知の機能及び構成の説明を省略する。
人工知能技術の発展に伴い、マンマシン音声のインタラクションも大きな進展を遂げてきて、意味認識は自然言語処理技術分野において、最も重要な一環として、知能対話システム、知能応答システムなどの人機音声インタラクションシステムに広く応用されていると理解される。
現在、意味認識を行う場合、通常、ユーザの文全体の音声認識結果を取得した後、文全体の音声認識結果に意味解析を開始する。このように、マンマシン音声インタラクションシステムの応答時間が長く、インタラクション効率が低く、ユーザの体験が悪い。
本出願は、マンマシンインタラクションシステムの応答時間を短縮し、インタラクション効率を向上させ、ユーザ体験を改善するために、意味認識方法を提出し、この方法は、まず処理対象の音声の音声認識結果を取得し、ここで、音声認識結果が、新規認識結果セグメント及び履歴認識結果セグメントを含み、新規認識結果セグメントが処理対象の音声内の新規音声セグメントに対応する認識結果セグメントであり、履歴認識結果セグメント内の各履歴オブジェクトの意味ベクトルを取得し、各履歴オブジェクトの意味ベクトル及び新規認識結果セグメント内の各新規オブジェクトをストリーミング意味符号化層に入力して、各新規オブジェクトの意味ベクトルを取得し、各履歴オブジェクトの意味ベクトルを、順番に配列されたストリーミング意味ベクトル融合層と意味理解マルチタスク層に入力して、処理対象の音声の意味認識結果を取得する。これにより、ユーザの音声に対するリアルタイムの意味認識を実現し、マンマシン音声インタラクションシステムの応答時間を短縮し、インタラクション効率を向上させ、ユーザ体験を改善する。
以下、図面を参照して本出願の実施例の意味認識方法、装置、電子機器、非一時的なコンピュータ読み取り可能な記憶媒体を説明する。
まず、図1と組み合わせて、本出願に提供される意味認識方法を詳細に説明する。
図1は本出願の第1の実施例の概略図である。なお、本実施例によって提供される意味認識方法は、実行主体が意味認識装置であり、意味認識装置は電子機器であってもよく、電子機器に配置されてもよく、ユーザの音声の意味をリアルタイムに認識し、マンマシン音声インタラクションシステムの応答時間を短縮し、インタラクション効率を向上させ、ユーザ体験を改善する。
ここで、電子機器は、データを処理できる固定またはモバイルコンピューティングデバイス、例えば、ノートパソコン、スマートフォン、ウェアラブルデバイスなどのモバイルコンピューティングデバイス、またはデスクトップコンピュータなどの固定コンピューティングデバイス、またはサーバ、または他のタイプのコンピューティングデバイスなどであってもよい。意味認識装置は、電子機器であってもよいし、電子機器に取り付けられて意味認識を行うためのアプリケーションであってもよいし、意味認識を実現するためのアプリケーションの管理者、開発者によって使用されるこのアプリケーションを管理、維持するためのウェブページ、アプリケーションなどであってもよく、本出願はこれに限定されない。
図1に示すように、意味認識方法は、以下のステップを含むことができる。
ステップ101、処理対象の音声の音声認識結果を取得する。
ここで、音声認識結果は、新規認識結果セグメント及び履歴認識結果セグメントを含み、新規認識結果セグメントは処理対象の音声内の新規音声セグメントに対応する認識結果セグメントである
なお、処理対象の音声の音声認識結果は、意味認識装置が処理対象の音声に対して音声認識を行うことによって取得されてもよいし、他の音声認識機能を有する電子機器から意味認識装置に送信されたものであってもよいし、意味認識装置の電子機器において、音声認識機能を有する装置から意味認識装置に送信されたものであってもよいが、本出願の実施例はこれに限定されない。本出願の実施例は、音声認識装置が処理対象の音声に対して音声認識を行うことを例として説明する。
なお、本出願の実施例では、意味認識装置は、ユーザが話すと同時に、ユーザの音声をリアルタイムに取得し、音声認識結果に基づいてリアルタイムに意味認識することができると理解される。
例えば、意味認識装置が1秒ごとにユーザの音声を認識すると仮定すると、意味認識装置が第1秒内に音声セグメント「我想听(私は聞きたい)」を取得した場合、音声セグメント「我想听」に対応する音声認識結果「我想听」を取得し、音声認識結果に基づいて音声セグメント「我想听」に対して意味認識をすることができる。意味認識装置が第2秒内に音声セグメント「張三」を取得した場合、音声セグメント「我想听張三」(私は張三を聞きたい)に対応する音声認識結果「我想听張三」を取得し、音声認識結果に基づいて音声セグメント「我想听張三」に対して意味認識をすることができる。意味認識装置が第3秒内に音声セグメント「的歌(の歌)」を取得した場合、音声セグメント「我想听張三的歌(私は張三の歌を聞きたい)」に対応する音声認識結果「我想听張三的歌」を取得し、音声認識結果に基づいて、音声セグメント「我想听張三的歌」に対して意味認識をすることができる。ユーザの音声全体の意味認識を実現するまで上記のプロセスを繰り返する。
本出願の実施例では、毎回に取得された音声認識結果における前回取得された音声認識結果の同じ認識結果セグメントを履歴認識結果セグメントと呼び、前回取得された音声認識結果の上に新たに追加されたセグメント、すなわち前に取得された音声セグメントよりも新たに追加された音声セグメントに対応する認識結果セグメントを新規認識結果セグメントとする。
引き続き上記の例を参照すると、意味認識装置が音声セグメント「我想听」及び「張三」を取得した後、音声セグメント「我想听張三」に対して意味認識をすることができ、この時、処理対象の音声は音声セグメント「我想听張三」を含む。今回取得された音声セグメントは、以前に取得された音声セグメント「我想听」より「張三」が新しく追加されたため、処理対象の音声において、新規音声セグメントが「張三」となり、処理対象の音声の音声認識結果には、履歴認識結果セグメント「我想听」と新規認識結果セグメント「張三」が含まれる。
意味認識装置がユーザの音声セグメント「我想听」、「張三」、「的歌」を取得した後、音声セグメント「我想听張三的歌」に対して意味認識をすることができ、この時、処理対象の音声は音声セグメント「我想听張三的歌」を含む。今回取得された音声セグメントは、以前に取得された音声セグメント「我想听張三」より「的歌」が新しく追加されたため、処理対象の音声において新規セグメントが「的歌」となり、処理対象の音声の音声認識結果には、履歴認識結果セグメント「我想听張三」と新規認識結果セグメント「的歌」が含まれる。
なお、意味認識装置が音声セグメント「我想听」を取得した後、音声セグメント「我想听」に対して意味認識をすることができ、この時、処理対象の音声には音声セグメント「我想听」が含まれ、処理対象の音声において、新規音声セグメントが「我想听」となり、今回は意味認識装置が初めて音声セグメントを取得したため、処理対象の音声の音声認識結果には履歴認識結果セグメントではなく、新規認識結果セグメント「我想听」のみが含まれる。
ステップ102、履歴認識結果セグメント内の各履歴オブジェクトの意味ベクトルを取得し、各履歴オブジェクトの意味ベクトル及び新規認識結果セグメント内の各新規オブジェクトをストリーミング意味符号化層に入力して、各新規オブジェクトの意味ベクトルを取得する。
ここで、履歴オブジェクトは、履歴認識結果セグメントにおける最小ユニットである。新規オブジェクトは新規認識結果セグメントにおける最小ユニットである。例えば、履歴認識結果セグメントが文字を単位とする場合、履歴認識結果セグメント「我想听」内の各履歴オブジェクトに「我」、「想」、「听」が含まれる。新規認識結果セグメントが文字を単位とする場合、新規認識結果セグメント「的歌」の各新規オブジェクトには「的」「歌」が含まれる。
本出願の実施例の意味認識装置には、意味認識モデルが含まれ、意味認識モデルは、順番に配列されたストリーミング意味符号化層、ストリーミング意味ベクトル融合層、意味理解マルチタスク層を含むことが理解される。
ストリーミング意味符号化層は、各履歴オブジェクトの意味ベクトル及び各新規オブジェクトの意味ベクトルを取得することに用いられる。
本出願の実施例では、処理対象の音声の音声認識結果を初めて取得した後、ストリーミング意味符号化層を使用して、新規認識結果セグメント内の各新規オブジェクトの意味ベクトルを決定することができる。処理対象の音声の音声認識結果を2回目に取得した後、1回目に取得された各新規オブジェクトの意味ベクトル、すなわち2回目に取得された履歴認識結果セグメント内の各履歴オブジェクトの意味ベクトル、及び2回目に取得された新規認識結果セグメント内の各新規オブジェクトに応じて、ストリーミング意味符号化層を使用して、2回目に取得された新規認識結果セグメント内の各新規オブジェクトの意味ベクトルを決定する。処理対象の音声の音声認識結果を3回目に取得した後、1回目と2回目に取得された各新規オブジェクトの意味ベクトル、すなわち3回目に取得された履歴認識結果セグメント内の各履歴オブジェクトの意味ベクトル、及び3回目に取得された新規認識結果セグメント内の各新規オブジェクトに基づいて、ストリーミング意味符号化層を使用して、3回目に取得された新規認識結果セグメントの各新規オブジェクトの意味ベクトルを決定する。
このように類推すると、処理対象の音声認識結果を取得した後、以前毎回に取得された各新規オブジェクトの意味ベクトル、すなわち今回取得された履歴認識結果セグメント内の各履歴オブジェクトの意味ベクトル、及び今回取得された新規認識結果セグメントの各新規オブジェクトに基づいて、ストリーミング意味符号化層を使用して、今回取得された新規認識結果セグメント内の各新規オブジェクトの意味ベクトルを決定し、今回取得された各新規オブジェクトの意味ベクトルを、前回取得された各新規オブジェクトの意味ベクトルと共に、次回新規認識セグメント内の各新規オブジェクトの意味ベクトルを取得する際に、履歴認識結果セグメント内の各履歴オブジェクトの意味ベクトルとして、次回得される新規認識結果セグメント内の各新規オブジェクトを組み合わせて、ストリーミング意味符号化層を使用して、次回取得される新規認識結果セグメント内の各新規オブジェクトの意味ベクトルを決定する。
例えば、引き続き上記の例を参照すると、意味認識装置が処理対象の音声「我想听」の音声認識結果を取得した後、音声認識結果に含まれる新規音声セグメントにおける「我」、「想」、「听」の3つの新規オブジェクトに基づいて、ストリーミング意味符号化層を使用して、「我」、「想」、「听」の3つの新規オブジェクトの意味ベクトルを取得する。意味認識装置が処理対象の音声「我想听張三」の音声認識結果を取得した後、音声認識結果に含まれる新規音声セグメントにおける「張」、「三」の2つの新規オブジェクト、及び以前に決定された「我」、「想」、「听」の3つの新規オブジェクトの意味ベクトルに基づいて、ストリーミング意味符号化層を使用して、「張」、「三」という2つの新規オブジェクトの意味ベクトルを取得する。意味認識装置が処理対象の音声「我想听張三的歌」(私は張三の歌を聞きたい)の音声認識結果を取得した後、音声認識結果に含まれる新規音声セグメントにおける「的」、「歌」という2つの新規オブジェクトと、以前に決定された「我」、「想」、「听」、「張」、「三」の5つの新規オブジェクトの意味ベクトルに基づいて、ストリーミング意味符号化層を使用して、「的」、「歌」という2つの新規オブジェクトの意味ベクトルを取得する。
本出願の実施例では、履歴認識結果セグメント内の各履歴オブジェクトの意味ベクトル、及び新規認識結果セグメント内の各新規オブジェクトに基づいて、ストリーミング意味符号化層を使用して、各新規オブジェクトの意味ベクトルを取得する際に、各履歴オブジェクトの意味ベクトル、及び新規認識結果セグメント内の各新規オブジェクトをストリーミング意味符号化層に入力し、ストリーミング意味符号化層の出力は、すなわち各新規オブジェクトの意味ベクトルである。
なお、新規認識結果セグメント内の各新規オブジェクトの意味ベクトルを取得する際に、新規認識結果セグメントにおける新規オブジェクトの数が複数である場合、各履歴オブジェクトの意味ベクトル及び新規認識結果セグメントにおける最上位にソートされた新規オブジェクトをストリーミング意味符号化層に入力して、新規認識結果セグメントにおける最上位にソートされた新規オブジェクト意味ベクトルを取得することができる。さらに、各履歴オブジェクトの意味ベクトル、新規認識結果セグメントにおける最上位にソートされた新規オブジェクト意味ベクトル、及び新規オブジェクトの意味ベクトルにおける第2位にソートされた新規オブジェクトを、ストリーミング意味符号化層に入力して、新規認識結果セグメントにおける第2位にソートされた意味ベクトルを取得する。さらに、各履歴オブジェクトの意味ベクトル、新規認識結果セグメントにおける最上位にソートされた新規オブジェクト、第2位にソートされた新規オブジェクトの意味ベクトル、及び新規認識結果セグメントにおける第3位にソートされた新規オブジェクトを、ストリーミング意味符号化層に入力して、新規認識結果セグメントにおける第3位の新規オブジェクトの意味ベクトルを取得する。新規認識結果セグメントにおける新規オブジェクトのすべての意味ベクトルを取得するまでこのように類推する。
なお、本出願の実施例では各オブジェクトの順序は、取得時間に応じて並べたものである。例えば、履歴認識結果セグメントは「我想听」である場合、ユーザが話している時、まず「我」を言い、次に「想」を言い、その後は「听」を言う。対応する意味認識装置は「我」、「想」、「听」といういくつの履歴オブジェクトを取得する順序も、まずは「我」、次は「想」、最後は「听」であり、これらの履歴オブジェクトの順序は「我」が一番前になり、「想」が二番目になり、「听」が三番目になる。
なお、各新規オブジェクトをストリーミング意味符号化層に入力する場合、具体的に入力するのは、新規オブジェクトベクトル及び位置ベクトルをスプライシングして得られたスプライシングベクトルであってもよい。ここで、新規オブジェクトのオブジェクトベクトルは、新規オブジェクトの特徴を説明することに用いられ、新規オブジェクトの位置ベクトルは、処理対象の音声内の新規オブジェクトの位置を説明することに用いられ、例えば、新規オブジェクトは処理対象の音声において、最上位にソートされているか、または第2位にソートされているかなどである。新規オブジェクトのオブジェクトベクトルと位置ベクトルは、具体的には、関連技術において、特徴ベクトルを取得する方式によって取得することができ、本出願はこれに対して限定しない。
例えば、引き続き上記の例を参照すると、意味認識装置は、新規認識結果セグメント「張三」における「張」及び「三」という2つの新規オブジェクトの意味ベクトルを取得する際に、履歴認識結果セグメントにおける「我」、「想」、「听」という3つの履歴オブジェクトの意味ベクトル、及び新規オブジェクト「張」のスプライシングベクトルをストリーミング意味符号化層に入力して、新規オブジェクト「張」の意味ベクトルを取得する。履歴認識結果セグメントにおける「我」「想」「听」という3つの履歴オブジェクトの意味ベクトル、新規オブジェクト「張」の意味ベクトル、及び新規オブジェクト「三」のスプライシングベクトルを、ストリーミング意味符号化層に入力し、新規オブジェクト「三」の意味ベクトルを取得して、さらいに新規認識結果セグメントにおける「張」及び「三」という2つの新規オブジェクトの意味ベクトルを取得する。
なお、各新規オブジェクトの意味ベクトルを取得する際に、非ストリーミング意味符号化層を使用して取得する場合、各新規オブジェクトの意味ベクトルを取得する際に、再計算して各履歴オブジェクトの意味ベクトルを取得して、各履歴オブジェクトの意味ベクトルを使用して、各新規オブジェクトの意味ベクトルを取得する必要があるは理解される。意味認識装置は、リアルタイムに取得されたユーザの音声に対してリアルタイムの意味認識を行うため、ユーザの音声全体に対して意味認識をするプロセスにおいて、処理対象の音声の音声認識結果を何回も取得し、例えば、最初に処理対象の音声「我想听」の音声認識結果を取得し、2回目に処理対象の音声「我想听張三」の音声認識結果を取得し、三回目に処理対象の音声「我想听張三的歌」の音声認識結果を取得し、毎回取得された処理対象の音声の音声認識結果に基づいて、毎回取得された処理対象の音声に対して意味認識を行い、意味認識を行うたびに、いずれも現在対応する処理対象の音声の音声認識結果における各新規音声認識結果セグメントの各新規オブジェクトの意味ベクトルを取得する必要があり、毎回処理対象の音声の音声認識結果を取得した後、取得された各履歴オブジェクトの意味ベクトルを再計算して、さらに各履歴オブジェクトの意味ベクトルに基づいて新規認識結果セグメント内の各新規オブジェクトの意味ベクトルを取得すると、計算量は非常に大きくなる。
本出願の実施例では、ストリーミング意味符号化層を使用して、以前に取得された各履歴オブジェクトの意味ベクトルを再び採用して、各新規オブジェクトの意味ベクトルを取得することができる。毎回処理対象の音声の音声認識結果を取得した後、全部各履歴オブジェクトの意味ベクトルを再計算してから、各履歴オブジェクトの意味ベクトルに基づいて、各新規オブジェクトの意味ベクトルを取得する必要がないため、各新規オブジェクトの意味ベクトルを取得する時の計算量を大幅に低減し、意味認識の速度を向上させて、さらに、マンマシン音声インタラクションの応答時間を減少させ、音声インタラクション効率を向上させることができる。
例えば、引き続き上記の例を参照すると、ユーザが話そうとする完全な音声が「我想听張三的歌」と仮定すると、この完全な音声の意味認識プロセスにおいて、処理対象の音声の音声認識結果を3回取得した。ここで、意味認識装置が最初に取得したのは、処理対象の音声「我想听」の音声認識結果であり、音声認識結果には新規認識結果セグメント「我想听」が含まれ、意味認識装置は、処理対象の音声「我想听」の音声認識結果に基づいて、処理対象の音声「我想听」に対して意味認識を行う。意味認識装置が2回目に取得したのは、処理対象の音声「我想听張三」の音声認識結果であり、音声認識結果には履歴認識結果セグメント「我想听」と新規認識結果セグメント「張三」が含まれ、意味認識装置は、処理対象の音声「我想听張三」の音声認識結果に基づいて、処理対象の音声「我想听張三」に対して意味認識を行う。音声認識装置が3回目に取得したのは、処理対象の音声「我想听張三的歌」という音声認識の結果であり、音声認識結果には履歴認識結果セグメント「我想听張三」と新規認識結果セグメント「的歌」が含まれ、意味認識装置は、処理対象の音声「我想听張三的歌」という音声認識の結果に基づいて、処理対象の音声「我想听張三的歌」に対して意味認識を行う。
処理対象の音声に意味認識を行うたびに、新規認識結果セグメント内の各新規オブジェクトの意味ベクトルを取得する必要があり、非ストリーミング符号化層を使用して、各新規オブジェクトの意味ベクトルを取得する場合、処理対象の音声「我想听」に対して意味認識を行うプロセスにおいて、計算して新規オブジェクト「我」の意味ベクトルを取得する必要があり、また、新規オブジェクト「我」の意味ベクトルと新規オブジェクト「想」に基づいて、新規オブジェクト「想」の意味ベクトルを取得し、また新規オブジェクト「我」と新規オブジェクト「想」の意味ベクトル、及び新規オブジェクト「听」に基づいて、新規オブジェクト「听」の意味ベクトルを算出する。
処理対象の音声「我想听張三」に対して意味認識を行うプロセスにおいて、再計算して履歴オブジェクト「我」の意味ベクトルを取得する必要があり、さらに履歴オブジェクト「我」の意味ベクトルと履歴オブジェクト「想」に基づいて、再計算して履歴オブジェクト「想」の意味ベクトルを取得する。さらに履歴オブジェクト「我」、履歴オブジェクト「想」、及び履歴オブジェクト「听」のそれぞれの意味ベクトル、及び新規オブジェクト「張」に基づいて、計算して新規オブジェクト「張」の意味ベクトルを取得し、さらに履歴オブジェクト「我」、履歴オブジェクト「想」、履歴オブジェクト「听」のそれぞれの意味ベクトル、新規オブジェクトの「張」の意味ベクトル、及び新規オブジェクト「三」に基づいて、計算して新規オブジェクト「三」の意味ベクトルを取得す。
処理対象の音声「我想听張三的歌」に対して意味認識を行うプロセスにおいて、上記のように再計算して履歴オブジェクト「我」、「想」、「听」と、「張」、「三」のそれぞれの意味ベクトルを取得し、さらに各履歴オブジェクトの意味ベクトルと新規オブジェクト「的歌」に基づいて、計算して新規オブジェクト「的」と「歌」のそれぞれの意味ベクトルを取得する必要がある。
これにより、処理対象の音声の音声認識結果において、認識結果セグメント内の各新規オブジェクトの意味ベクトルを取得するたびに、非ストリーミング意味符号化層を使用して取得する場合、毎回再計算して各履歴オブジェクトの意味ベクトルを取得する必要があり、ユーザの全体の音声が長い場合、計算量は非常に大きくなる。
本出願の実施例では、ストリーミング意味符号化層を使用して、処理対象の音声「我想听張三」に対して意味認識を行うプロセスにおいて、再計算して「我」、「想」、「听」という3つの履歴オブジェクトを取得する必要はなく、以前に取得された各履歴オブジェクトの意味ベクトルを直に使用して、「張」と「三」の2つの新規オブジェクトの意味ベクトルを取得することができる。処理対象の音声「我想听張三的歌」に意味認識を行うプロセスにおいて、再計算して履歴オブジェクト「我」、「想」、「听」、「張」と「三」のそれぞれの意味ベクトルを取得する必要もなく、以前に入手された各履歴オブジェクトの意味ベクトルを直接利用して、「的」及び「歌」という2つの新規オブジェクトの意味ベクトルを取得することができる。これにより、各新規オブジェクトの意味ベクトルを取得する時の計算量を減少させ、意味認識の速度を向上させて、さらにマンマシン音声インタラクションの応答時間を減少させ、音声インタラクションの効率を向上させることができる。
ステップ103、各履歴オブジェクトの意味ベクトル及び各新規オブジェクトの意味ベクトルを、順番に配列されたストリーミング意味ベクトル融合層と意味理解マルチタスク層に入力し、処理対象の音声の意味認識結果を取得する。
ここで、意味理解マルチタスクは、意味認識機能を有し、各履歴オブジェクトの意味ベクトル及び各新規オブジェクトの意味ベクトルに基づいて、処理対象の音声の意味認識結果を取得することに用いられる。
なお、各履歴オブジェクトの意味ベクトル及び各新規オブジェクトの意味ベクトルに基づいて意味認識を行う際に、各意味ベクトルの次元は異なる可能性があり、本出願の実施例では、ストリーミング意味ベクトル融合層は、各意味ベクトルの次元を統一して、各履歴オブジェクトの意味ベクトルと各新規オブジェクトの意味ベクトルを意味理解マルチタスク層に基づいて、意味認識を行うことに用いられ、また、ストリーミング意味ベクトル融合層は、各履歴オブジェクトの意味オブジェクトと各新規オブジェクトの意味ベクトルをタイミング的に融合させることができ、融合後の各履歴オブジェクトの融合意味ベクトル及び各新規オブジェクトの融合意味ベクトルを得て、さらに、各履歴オブジェクトの融合意味ベクトルと各新規オブジェクトの融合意味ベクトル、及び意味認識機能を有する意味理解マルチタスクを使用して、処理対象の音声の意味認識結果を取得する。
具体的には、各履歴オブジェクトの意味ベクトルと各新規オブジェクトの意味ベクトルを最上位にソートされたストリーミング意味ベクトル融合層に入力すると、各履歴オブジェクト及び各新規オブジェクトの意味ベクトルの次元統一及びタイミング融合を実現することができ、さらにストリーミング意味ベクトル融合層の出力結果を意味理解マルチタスク層に入力して処理対象の音声の意味認識結果を取得することができる。
本出願の実施例によって提供される意味認識方法は、ユーザの完全な音声を取得した後、ユーザの完全な音声に意味認識をする必要がないため、ユーザの音声を取得する過程において、意味認識を開始することができ、これにより、マンマシンインタラクションシステムの応答時間を短縮し、インタラクション効率を向上させることができる。また、ユーザの音声に対して意味認識をする場合、ストリーミング意味符号化層を採用するため、以前に取得された各履歴オブジェクトの意味ベクトルを再び使用して、各新規オブジェクトの意味ベクトルを取得することができ、処理対象の音声の音声認識結果を取得した後、全部再計算して、各履歴オブジェクトの意味ベクトルを取得する必要がない。さらに、各履歴オブジェクトの意味ベクトルに基づいて、各新規オブジェクトの意味ベクトルを取得することにより、各新規オブジェクトの意味ベクトルを取得する時の計算量を大幅に減少させ、意味認識の速度を向上させ、さらにマンマシン音声インタラクションの応答時間を減少させ、音声インタラクション効率を向上させる。
本出願の実施例によって提供される意味認識方法は、まず処理対象の音声の音声認識結果を取得し、さらに履歴認識結果セグメント内の各履歴オブジェクトの意味ベクトルを取得し、各履歴オブジェクトの意味ベクトル及び新規認識結果セグメント内の各新規オブジェクトをストリーミング意味符号化層に入力して、各新規オブジェクトの意味ベクトルを取得し、さらに、各履歴オブジェクトの意味ベクトル及び各新規オブジェクトの意味ベクトルを、順番に配列されたストリーミング意味ベクトル融合層と意味理解マルチタスク層に入力して、処理対象の音声の意味認識結果を取得する。これにより、ユーザの音声に対するリアルタイムの意味認識を実現し、マンマシン音声インタラクションシステムの応答時間を短縮し、インタラクション効率を向上させ、ユーザ体験を改善する。
上記の分析から分かるように、本出願の実施例では、各履歴オブジェクトの意味ベクトル及び新規認識結果セグメント内の各新規オブジェクトをストリーミング意味符号化層に入力して、各新規オブジェクトの意味ベクトルを取得し、以下、図2と併せて、本出願によって提供される意味認識方法において、各履歴オブジェクトの意味ベクトル及び認識結果セグメント内の各新規オブジェクトに基づいて、ストリーミング意味符号化層を使用して、各新規オブジェクトの意味ベクトルを取得するプロセスをさらに説明する。
図2は本出願の第2の実施例に係る概略図である。図2に示すように、意味認識方法は、以下のステップを含むことができる。
ステップ201、処理対象の音声の音声認識結果を取得する。
ここで、音声認識結果は、新規認識結果セグメント及び履歴認識結果セグメントを含み、ここで、新規認識結果セグメントは処理対象の音声内の新規音声セグメントに対応する認識結果セグメントである。
上記ステップ201の具体的な実現プロセス及び原理は、上記実施例の説明を参照することができ、ここでは説明を省略する。
例示的な実施例では、意味認識装置が取得したのは、文字を単位する音声認識結果であってもよく、これに応じて、各履歴オブジェクトは音声認識結果における履歴認識結果セグメントの各文字であり、各新規オブジェクトは音声認識結果における新規認識結果セグメントの各文字である。意味認識装置は、文字を単位する音声認識結果に基づいて、処理対象の音声に対して意味認識を行うことができる。
いくつかのシーンにおいて、文字を単位とする音声認識結果に基づいて、処理対象の音声に意味認識を行うと、意味認識結果が正確ではないことを引き起こす可能性があることは理解される。例えば、遠方界音声インタラクションにおいて、ノイズ干渉と信号減衰、及び垂直領域スロットが複雑な多様性を有するため、例えば、同音語、類音語、ロングテールワードなど、並びにユーザのアクセントの問題により、音声認識結果は音が正しいが文字が誤る場合になる可能性があり、意味認識装置はさらに誤った音声認識結果に基づいて意味認識を行う場合、エラーの累積を引き起こしやすく、したがって意味認識結果が正確ではない場合が現れる。また、文字を単位にする音声認識結果は、音節を単位にする音声認識結果よりも、エラーが発生する確率がより高いため、ストリーミング意味符号化層を使用して各新規オブジェクトの意味ベクトルを取得する場合、再び使用できる、前に取得された各履歴オブジェクトの意味ベクトルの数が減少する。
それでは、本出願の実施例では、意味装置は音節を単位にする音声認識結果を取得することもでき、これに応じて、各履歴オブジェクトは音声認識結果における履歴認識結果セグメントの各音節であり、各新規オブジェクトは音声認識結果における新規認識結果セグメントの各音節である。意味認識装置は、音節を単位にする音声認識結果に基づいて、処理対象の音声に意味認識を行うことができる。
例示的な実施例では、処理対象の音声を音節認識モデルに入力して、処理対象の音声の音節認識結果を取得し、音節認識結果を処理対象の音声の音声認識結果とする、という以上の方法によって処理対象の音声の音声認識結果を取得することができ、ここで、音節認識モデルは、畳み込みニューラルネットワークモデル、再帰型ニューラルネットワークなど、自然言語処理分野において処理対象の音声の音節を任意に認識できるモデルであってもよく、本出願はこれに限定されない。
例えば、意味認識装置が初めて処理対象の音声を取得した後に、処理対象の音声の認識結果セグメントが文字を単位にして「我想听」であると仮定すると、処理対象の音声を音節認識モデルに入力して、以下の音節認識結果「uu_T0_uo_T3 x_T0_iang_T3 t_T0_ing_T1」を取得することができ、さらに、この音節認識結果を処理対象の音声の音声認識結果とすることができる。
意味認識装置が2回目に処理対象の音声を取得した後、処理対象の音声の認識結果セグメントが文字を単位にして「我想听張三」である場合、処理対象の音声を音節認識モデルに入力し、次の音節認識結果「uu_T0_uo_T3 x_T0_iang_T3 t_T0_ing_T1 zh_T0_ang_T1 s_T0_an_T1_」を取得することができ、さらに、この音節認識結果を処理対象の音声の音声認識結果とすることができる。ここで、音声認識結果において、履歴認識結果セグメントは「uu_T0_uo_T3 x_T0_iang_T3 t_T0_ing_T1」であり、新規認識結果セグメントは「zh_T0_ang_T1 s_T0_an_T1」である。さらに、処理対象の音声の音声認識結果に基づいて、処理対象の音声の音声に対して意味認識を行うことができる。
意味認識装置が3回目に処理対象の音声を取得した後、処理対象の音声の認識結果セグメントが文字を単位にして「我想听張三的歌」である場合、処理対象の音声を音節認識モデルに入力して、以下の音節認識結果「uu_T0_uo_T3 x_T0_iang_T3 t_T0_ing_T1 zh_T0_ang_T1 s_T0_an_T1 T38 g_T0_e_T1」を取得することができる。さらに、この音節認識結果を処理対象の音声の音声認識結果とすることができ、ここで、音声認識結果において、履歴認識結果セグメントは「uu_T0_uo_T3 x_T0_iang_T3 t_T0_ing_T1 zh_T0_ang_T1 s_T0_an_T1」であり、新規認識結果セグメントは「T38 g_T0_e_T1」である。さらに、処理対象の音声の音声認識結果に基づいて、処理対象の音声に対して意味認識を行うことができる。
本出願の実施例では、意味認識装置は、音節を単位とする音声認識結果を取得し、さらに音節を単位とする音声認識結果に基づいて、処理対象の音声に対して意味認識を行う。一方、音節を単位とする音声認識結果は音が正しくて文字が誤る場合がないため、音声認識結果の精度を向上させ、音声認識結果を使用して意味認識を行う時のエラーの累積を減少させ、意味認識装置における意味認識モデルの音声認識結果の誤りの許容性を向上させて、意味認識装置における意味認識モデルの意味認識結果の精度とモデルのロバスト性を向上させる。他方では、音節を単位にする認識結果は、文字を単位にする認識結果よりもエラーが発生する確率がより小さく、認識結果がより安定的であるため、ストリーミング意味符号化層を使用して、各新規オブジェクトの意味ベクトルを取得する時、再び使用できる、以前に取得された各履歴オブジェクトの意味ベクトルの数がより多く、したがって計算量をさらに減少させ、意味認識の速度をさらに向上させることができる。
ステップ202において、履歴認識結果セグメント内の各履歴オブジェクトの意味ベクトルを取得する。
具体的には、意味認識装置は、毎回取得される処理対象の音声に対して意味認識をするプロセスにおいて、前に決定された各履歴オブジェクトの意味ベクトルを直接取得することができる。ここで、上記ステップ202の具体的な実施プロセス及び原理は、上記実施例における説明を参照すればよい。ここでは詳しい説明を省略する。
ステップ203、各新規オブジェクトのスプライシングベクトルを取得し、スプライシングベクトルは、新規オブジェクトのオブジェクトベクトル及び位置ベクトルに基づいてスプライシングすることによって取得される。
ここで、新規オブジェクトのオブジェクトベクトルは、新規オブジェクトの特徴を説明することに用いられ、新規オブジェクトの位置ベクトルは、新規オブジェクトが処理対象の音声内の位置を説明することに用いられ、例えば、新規オブジェクトは処理対象の音声において、最上位にソートされ、または第2位にソートされるなど。オブジェクトのオブジェクトベクトルと位置ベクトルは、具体的には、関連技術において、特徴ベクトルを任意に取得するという方式で取得することができるが、本出願はこれに対して限定しない。
例示的な実施例では、各新規オブジェクトに対して、新規オブジェクトのオブジェクトベクトルと位置ベクトルをスプライシングすると、新規オブジェクトのスプライシングベクトルを取得して、各新規オブジェクトのスプライシングベクトルを取得することができる。
ステップ204、各履歴オブジェクトの意味ベクトルに基づいて、ストリーミング意味符号化層内の各履歴オブジェクトの中間結果に対して初期化設定を行い、設定されたストリーミング意味符号化層を取得する。
ステップ205、各新規オブジェクトのスプライシングベクトルを設定されたストリーミング意味符号化層に入力して、各新規オブジェクトの意味ベクトルを取得する。
具体的には、各履歴オブジェクトの意味ベクトルを取得した後、各履歴オブジェクトの意味ベクトルを、ストリーミング意味符号化層の各履歴オブジェクトの中間結果として決定して、ストリーミング意味符号化層内の各履歴オブジェクトの中間結果の初期化設定を実現して、設定されたストリーミング意味符号化層を取得し、さらに、各新規オブジェクトのスプライシングベクトルを設定されたストリーミング意味符号化層に入力すると、各新規オブジェクトの意味ベクトルを取得することができる。
上記プロセスにより、各履歴オブジェクトの意味ベクトル及び新規認識結果セグメント内の各新規オブジェクトに基づいて、ストリーミング意味符号化層を使用して、各新規オブジェクトの意味ベクトルを取得し、以前に取得された各履歴オブジェクトの意味ベクトルを再び使用して、各新規オブジェクトの意味ベクトルを取得することができ、処理対象の音声の音声認識結果を取得した後、全部再計算して、各履歴オブジェクトの意味ベクトルを取得する必要がない、さらに、各履歴オブジェクトの意味ベクトルに基づいて、各新規オブジェクトの意味ベクトルを取得することにより、各新規オブジェクトの意味ベクトルを取得する時の計算量を大幅に減少させ、意味認識の速度を向上させ、さらにマンマシン音声インタラクションの応答時間を減少させ、音声インタラクション効率を向上させる。
ステップ206、各履歴オブジェクトの意味ベクトル及び各新規オブジェクトの意味ベクトルを、順番に配列されたストリーミング意味ベクトル融合層及び意味理解マルチタスク層に入力し、処理対象の音声の意味認識結果を取得する。
ここで、上記ステップ206の具体的な実施プロセス及び原理は、上記実施例の詳細な説明を参照してもよく、ここでは説明を省略する。
本出願の実施例では、処理対象の音声の音声認識結果における認識結果セグメントの各新規オブジェクトの意味ベクトルを取得する時に、各新規オブジェクトに対して、処理対象の音声の認識結果セグメントに基づいて、この新規オブジェクトの上位にソートされた各履歴オブジェクトの意味ベクトルを取得し、または、処理対象の音声の認識結果セグメントにおけるこの新規オブジェクトの上位にソートされた各履歴オブジェクトの意味ベクトルと、この新規オブジェクトの上位にソートされた新規オブジェクトの意味ベクトルを取得する。すなわち、本出願の実施例では、ストリーミング意味符号化層を使用して、各新規オブジェクトの意味ベクトルを取得する場合は、いずれも処理対象の音声の認識結果セグメントにおける現在新規オブジェクトの上位にソートされた各履歴オブジェクト、または、現在新規オブジェクトの上位にソートされた各履歴オブジェクト及び新規オブジェクトに依存し、処理対象の音声の認識結果セグメントにおける現在の新規オブジェクトの下位にソートされた新規オブジェクトに依存せず、このようにして以前に取得された各履歴オブジェクトの意味ベクトルを再び使用して、新規オブジェクトの意味ベクトルを取得する時の計算量を減少させ、マンマシン音声インタラクションシステムの応答時間を短縮し、インタラクション効率を向上させるという目的を実現することができる。この目的を達成するためには、ストリーミング意味符号化層の構造はワンウエイであり、これに応じて、ストリーミング意味ベクトル融合層の構造もワンウエイであることが必要である。
例示的な実施例では、ストリーミング意味符号化層は、自然言語処理の分野において広く応用される翻訳(transformer)モデルの多層符号化層を使用して実現されることができる。すなわち、ストリーミング意味符号化層は、transformerモデルの多層符号化層を含む。transformerモデルのツーウェーネットワークは、前後の位置情報を同時に融合させるものであるため、transformerモデルの符号化層がマスク付きのマルチヘッドアテンションメカニズムを含むように設定して、現在ストリーミング意味符号化層を使用して、各新規オブジェクトの意味ベクトルを取得する場合、処理対象の音声の認識結果セグメントにおける上位にソートされた各履歴オブジェクト、または、上位にソートされた各履歴オブジェクト及び新規オブジェクトのみに依存し、各処理対象の音声の認識結果セグメントにおける下位にソートされた新規オブジェクトに依存しないことを実現する。
ここで、transformerモデルの符号化層の層数は、必要に応じて設定することができ、例えば、マンマシン音声インタラクションシステムが応答速度、意味認識精度に対応する要求に応じて、符号化層の層数を柔軟に設定することができる。
例示的な実施例では、ストリーミング意味ベクトル融合層は、一方向LSTM層(Long Short-Term Memory、長短期記憶ネットワーク)を採用することができる。ここで、LSTMは、時間再帰型ニューラルネットワークであり、RNN(Recurrent Neural Network、再帰型ニューラルネットワーク)の一種である。
ストリーミング意味符号化層がtransformerモデルの多層符号化層を含み、符号化層がマスク付きのマルチヘッドアテンションメカニズムを含み、ストリーミング意味ベクトル融合層が一方向LSTM層であるように設定することにより、処理対象の音声に対して意味認識を行う際に、処理対象の音声の認識結果セグメントにおける上位にソートされた各履歴オブジェクト、または、上位にソートされた各履歴オブジェクト及び新規オブジェクトのみに依存し、各処理対象の音声の認識結果セグメントにおける下位にソートされた新規オブジェクトに依存しないことを実現して、各新規オブジェクトの意味ベルトを取得する時に、以前に取得された各履歴オブジェクトの意味ベクトルを再び使用して、新規オブジェクトの意味ベクトルを取得する時の計算量を減少させ、マンマシン音声インタラクションシステムの応答時間を短縮することができる。
本出願の実施例によって提供される意味認識方法は、処理対象の音声の音声認識結果を取得した後、履歴認識結果セグメント内の各履歴オブジェクトの意味ベクトルを取得してから、各新規オブジェクトのスプライシングベクトルを取得し、スプライシングベクトルが、新規オブジェクトのオブジェクトベクトル及び位置ベクトルに基づいてスプライシングして得られ、各履歴オブジェクトの意味ベクトルに基づいて、ストリーミング意味符号化層内の各履歴オブジェクトの中間結果に対して初期化設定をして、設定されたストリーミング意味符号化層を取得してから、各新規オブジェクトのスプライシングベクトルを設定されたストリーミング意味符号化層に入力して、各新規オブジェクトの意味ベクトルを取得し、さらに、各履歴オブジェクトの意味ベクトル及び各新規オブジェクトの意味ベクトルを、順番に配列されたストリーミング意味ベクトル融合層及び意味理解マルチタスク層に入力し、処理対象の音声の意味認識結果を取得する。これにより、ユーザの音声に対するリアルタイムの意味認識を実現し、マンマシン音声インタラクションシステムの応答時間を短縮し、インタラクション効率を向上させ、ユーザ体験を改善する。
以上の分析により、本出願の実施例では、各履歴オブジェクトの意味ベクトル及び各新規オブジェクトの意味ベクトルを、順番に配列されたストリーミング意味ベクトル融合層及び意味理解マルチタスク層に入力し、処理対象の音声の意味認識結果を取得することができる。図3と併せて、本出願によって提供される意味認識方法において、各履歴オブジェクトの意味ベクトル及び各新規オブジェクトの意味ベクトルに基づいて、処理対象の意味認識結果を取得するプロセスに対して、さらに説明する。
図3は、本出願の第3の実施例に係る概略図である。図3に示すように、意味認識方法は、以下のステップ301~ステップ304を含むことができる。
ステップ301、処理対象の音声の音声認識結果を取得する。
ここで、音声認識結果は、新規認識結果セグメント及び履歴認識結果セグメントを含み、ここで、新規認識結果セグメントは処理対象の音声内の新規音声セグメントに対応する認識結果セグメントである。
ステップ302、履歴認識結果セグメント内の各履歴オブジェクトの意味ベクトルを取得し、各履歴オブジェクトの意味ベクトル及び新規認識結果セグメント内の各新規オブジェクトをストリーミング意味符号化層に入力して、各新規オブジェクトの意味ベクトルを取得する。
ここで、上記ステップ301~ステップ302の具体的な実現プロセス及び原理は、上記実施例の説明を参照してもよく、ここでは説明を省略する。
ステップ303、各履歴オブジェクトの意味ベクトル及び各新規オブジェクトの意味ベクトルをストリーミング意味ベクトル融合層に入力して、各履歴オブジェクトの融合意味ベクトル、及び各新規オブジェクトの融合意味ベクトルを取得する。
ここで、新規オブジェクトの融合意味ベクトルは、新規オブジェクト及び以前のオブジェクトに対して意味ベクトル融合を行うことによって取得される。
ステップ304、各履歴オブジェクトの融合意味ベクトル及び各新規オブジェクトの融合意味ベクトルを意味理解マルチタスクに入力して、処理対象の音声の意味認識結果を取得する。
ここで、意味理解マルチタスクは、意味認識機能を有し、各履歴オブジェクトの意味ベクトル及び各新規オブジェクトの意味ベクトルに基づいて、処理対象の音声の意味認識結果を取得することに用いられる。
各履歴オブジェクトの意味ベクトル及び各新規オブジェクトの意味ベクトルに基づいて意味認識を行う場合、各意味ベクトルの次元は異なる可能性があり、本出願の実施例では、ストリーミング意味ベクトル融合層は、各意味ベクトルの次元を統一して、各履歴オブジェクトの意味ベクトルと各新規オブジェクトの意味ベクトルを意味理解マルチタスク層に基づいて、意味認識を行うことに用いられる。また、ストリーミング意味ベクトル融合層は、各履歴オブジェクトの意味オブジェクトと各新規オブジェクトの意味ベクトルをタイミング的に融合させ、融合後の各履歴オブジェクトの融合意味ベクトルと各新規オブジェクトの融合意味ベクトルを得て、さらに、各履歴オブジェクトの融合意味ベクトルと各新規オブジェクトの融合意味ベクトル、及び意味認識機能を有する意味理解マルチタスクを使用して、処理対象の音声の意味認識結果を取得することは理解される。
具体的に、各履歴オブジェクトの意味ベクトルと各新規オブジェクトの意味ベクトルを上位にソートされたストリーミング意味ベクトル融合層に入力して、各履歴オブジェクト及び各新規オブジェクトの意味ベクトルの次元統一及びタイミング融合を実現し、ストリーミング意味ベクトル融合層の出力は、各履歴オブジェクトの融合意味ベクトル、及び各新規オブジェクトの融合意味ベクトルである。ストリーミング意味ベクトル融合層の出力結果を意味理解マルチタスク層に入力して処理対象の音声の意味認識結果を取得することができる。
具体的に実現する場合、各履歴オブジェクトに対して、ストリーミング意味ベクトル融合層は、この履歴オブジェクトの意味ベクトル、及び処理対象の音声の認識結果セグメントといおけるこの履歴オブジェクトの上位にソートされた各履歴オブジェクトの意味ベクトルに対して意味ベクトル融合を行い、この履歴オブジェクトの融合意味ベクトルを取得することができる。
各新規オブジェクトに対して、ストリーミング意味融合総はこの新規オブジェクトの意味ベクトルと、処理対象の音声の認識結果セグメントにおけるこの新規オブジェクトの上位にソートされた各オブジェクトの意味ベクトルに対して意味ベクトル融合を行って、この新規オブジェクトの融合意味ベクトルを取得することができる。ここで、この新規オブジェクトの上位にソートされた各オブジェクトは、その新規オブジェクトの上位にソートされた各履歴オブジェクトのみを含むか、または、この新規オブジェクトの上位にソートされた各履歴オブジェクト或いはこの新規オブジェクトの上位にソートされた1つまたは複数の新規オブジェクトを含む可能性がある。
例えば、処理対象の音声認識結果には、履歴認識結果セグメント「我想听」と新規認識結果セグメント「張三」が含まれると仮定すると、ストリーミング意味ベクトル融合層は、履歴オブジェクト「我」と「想」それぞれの意味ベクトルに対して意味ベクトル融合を行って、履歴オブジェクト「想」の融合意味ベクトルを取得し、履歴オブジェクト「我」、「想」及び「听」それぞれの意味ベクトルに対して意味ベクトルの融合をし、履歴オブジェクト「听」の融合意味ベクトルを取得する。また、ストリーミング意味ベクトル融合層は、履歴オブジェクト「我」、「想」、「听」それぞれの意味ベクトルと、新規オブジェクトの「張」の意味ベクトルを融合させて、新規オブジェクト「張」の融合意味ベクトルを取得し、履歴オブジェクト「我」、「想」、「听」それぞれの意味ベクトルと、新規オブジェクト「張」、「三」それぞれの意味ベクトルに対して意味ベクトルの融合を行って、新規オブジェクト「三」の融合意味ベクトルを取得することができる。
ここで、複数の意味ベクトルに対して意味ベクトル融合を行う場合、複数の意味ベクトルを合計して、融合意味ベクトルを取得することができる。
各履歴オブジェクトの意味ベクトル及び各新規オブジェクトの意味ベクトルをストリーミング意味ベクトル融合層に入力することにより、各オブジェクトの意味ベクトルの次元統一及びタイミング融合を実現し、さらに意味ベクトル融合後の各オブジェクトの融合意味ベクトルに基づいて、意味理解マルチタスク層を使用して、処理対象の音声の意味認識結果を取得することができる。
例示的な実施例では、意味理解マルチタスク層は、意図認識ブランチ及びスロット認識ブランチを含むことができる。これに応じて、ステップ304は、以下のステップ304a~ステップ304cに示すような方式を通して実現することができる。
ステップ304a、各新規オブジェクトのうち最後にソートされた第1の新規オブジェクトの融合意味ベクトルを意図認識ブランチに入力して、処理対象の音声の意図認識結果を取得する。
ここで、意図認識とは、ユーザが何をしようとするかを判断することであり、例えば、ユーザがマンマシン音声インタラクションシステムに1つの質問を提出すると、マンマシン音声インタラクションシステムは、このユーザから聞かれたのは天気か、旅行かそれともある映画の情報かを判断し、判断プロセスは意図認識プロセスである。
意図認識ブランチは処理対象音声の意図を認識することに用いられる。ここで、意図認識ブランチは関連技術における意図認識を実現できる任意の構造を採用するとこができ、本出願はこれに限定されない。
具体的には、各新規オブジェクトのうち最後にソートされた第1の新規オブジェクトの融合意味ベクトルを意図認識ブランチに入力して、処理対象の音声の意図認識結果を取得することができる。
ステップ304b、各履歴オブジェクトの融合意味ベクトル及び各新規オブジェクトの融合意味ベクトルをスロット認識ブランチに入力して、処理対象の音声のスロット認識結果を取得する。
ここで、スロット認識は、ユーザの音声から所定の構造化フィールドを抽出して、後続の処理フローにより正確なフィードバックを与えるものである。
ここで、スロットブランチは処理対象の音声のスロットを認識することに用いられる。ここで、スロット認識ブランチは、関連技術におけるスロット認識を実現できる任意の構造を採用することができ、本出願はこれに限定されない。
具体的には、各履歴オブジェクトの融合意味ベクトル及び各新規オブジェクトの融合意味ベクトルをスロット認識ブランチに入力して、処理対象の音声のスロット認識結果を取得することができる。
ステップ304c、意図認識結果及びスロット認識結果に基づいて、処理対象の音声の意味認識結果を生成する。
具体的には、処理対象の音声の意図認識結果及びスロット認識結果を取得した後、意図認識結果及びスロット認識結果に基づいて、処理対象の音声の意味認識結果を生成することができる。
以下、図4に示すブロック図と併せて、本願によって提供される意味認識方法をさらに説明する。
図4に示すように、意味認識モデルは、ストリーミング意味符号化層(ブロック404に示すように)と、ストリーミング意味ベクトル融合層(ブロック403に示すように)と、意味理解マルチタスク層とを含むことができ、ここで、意味理解マルチタスク層は、意図認識ブランチ(ブロック401に示すように)と、スロット認識ブランチ(ブロック402に示すように)を含む。ここで、ストリーミング意味符号化層は、transformerモデルの多層符号化層を採用することができ、符号化層はマスク付きのマルチヘッドアテンションメカニズムを含み、符号化層の層数は8層を例とする。transformerモデルの多層符号化層には、残差モジュール、フィードフォワードネットワークが含まれる。ストリーミング意味ベクトル融合層は、一方向長短期記憶ネットワーク(LSTM)層である。意図認識ブランチは、1つの完全接続層及び1つの分類ネットワークを含み、分類ネットワークはSoftmax分類ネットワークを採用することができる。スロット認識ブランチは、1つの完全接続層と1つのシーケンスラベリングネットワークを含み、ここで、シーケンスラベリングネットワークは、CRF(Contational Random Fields、条件付確率場)ネットワークを採用することができる。
図4に示すように、処理の音声認識結果に意味認識を行う時、各新規オブジェクトの、オブジェクトベクトルと位置ベクトルに基づいてスプライシングして得られたスプライシングベクトルを取得することができ、且つスプライシングベクトルをストリーミング意味符号化層に入力する。ストリーミング意味符号化層は、処理対象の音声の音声認識結果を取得する時、各新規オブジェクトのスプライシングベクトルと、以前に取得された各履歴オブジェクトの意味ベクトルに基づいて、各新規オブジェクトの意味ベクトルを取得することができる。さらに、各履歴オブジェクトの意味ベクトル及び各新規オブジェクトの意味ベクトルを、一方向LSTM層に入力して、次元統一とタイミング融合をして、各履歴オブジェクトの融合意味ベクトル及び各新規オブジェクトの融合意味ベクトルを取得することができる。LSTM層から出力された各履歴オブジェクトの融合意味ベクトル及び各新規オブジェクトの融合意味ベクトルを意味理解マルチタスク層に入力し、各新規オブジェクトのうち最後にソートされた第1新規オブジェクトの融合意味ベクトルを意図認識ブランチに入力し、全連結層を経て、もう1つの分類ネットワークを経て、確率の最も高いカテゴリを意図認識結果として出力することができる。各履歴オブジェクトの融合意味ベクトルと各新規オブジェクトの融合意味ベクトルをスロット認識ブランチに入力し、1つの完全接続層を経て、もう1つのシーケンスラベリングネットワークを経て、スコアの最も高いルートをスロット認識結果として出力して、意図認識結果とスロット認識結果に基づいて、処理対象の音声の意味認識結果を取得することができる。
意味理解マルチタスク層において、意図認識ブランチとスロット認識ブランチを設定することにより、意図認識ブランチとスロット認識ブランチを使用して、処理対象の音声の意図認識結果とスロット認識結果をそれぞれ取得し、さらに意図認識結果とスロット認識結果に基づいて、処理対象の音声の意味認識結果を生成し、処理対象の音声の意図やスロットなどの意味情報を組み合わせて、処理対象の音声に意味認識を実現し、意味認識の精度を向上させた。
本出願の実施例によって提供される意味認識方法は、処理対象の音声の音声認識結果を取得した後、履歴認識結果セグメント内の各履歴オブジェクトの意味ベクトルを取得し、各履歴オブジェクトの意味ベクトル及び新規認識結果セグメント内の各新規オブジェクトをストリーミング意味符号化層に入力して、各新規オブジェクトの意味ベクトルを取得し、さらに各履歴オブジェクトの意味ベクトル及び各新規オブジェクトの意味ベクトルをストリーミング意味ベクトル融合層に入力して、各履歴オブジェクトの融合意味ベクトル、及び各新規オブジェクトの融合意味ベクトルを取得し、さらに各履歴オブジェクトの融合意味ベクトル及び各新規オブジェクトの融合意味ベクトルを意味理解マルチタスクに入力して、処理対象の音声の意味認識結果を取得する。ユーザの音声に対するリアルタイムの意味認識を実現し、マンマシン音声インタラクションシステムの応答時間を短縮し、インタラクション効率を向上させ、ユーザ体験を改善する。
以上の分析から分かるように、本出願の実施例では、ストリーミング意味符号化層、ストリーミング意味ベクトル融合層、意味理解マルチタスク層を使用して、リアルタイムの意味認識を実現することができる。以下は図5と併せて、本出願によって提供される意味認識方法において、ストリーミング意味符号化層、ストリーミング意味ベクトル融合層、意味理解マルチタスク層を取得するプロセスについて説明する。
図5は、本出願の第4の実施例に係る概略図である。図5に示すように、意味認識方法は、以下のステップ501~ステップ503をさらに含むことができる。
ステップ501、順番に接続された事前にトレーニングされたストリーミング意味符号化層、ストリーミング意味ベクトル融合層、及び意味理解マルチタスク層を含む初期の意味認識モデルを取得する。
ステップ502、初期の意味認識モデルのトレーニングデータを取得する。
ステップ503、トレーニングデータを使用して、初期の意味認識モデルをトレーニングして、トレーニングされた意味認識モデルを取得する。
ステップ504、トレーニングされた意味認識モデル内のストリーミング意味符号化層、ストリーミング意味ベクトル融合層、及び意味理解マルチタスク層を取得する。
本出願の実施例では、まず、順番に接続されたストリーミング意味符号化層、ストリーミング意味ベクトル融合層、及び意味理解マルチタスク層から構成される初期の意味認識モデルを取得し、意味認識モデルのトレーニングデータを取得することができ、さらに、トレーニングデータを使用して、初期の意味認識モデルをトレーニングして、意味認識を行うことに用いられるストリーミング意味符号化層、ストリーミング意味ベクトル融合層、及び意味理解マルチタスク層を取得する。
ここで、ストリーミング意味符号化層は、transformerモデルの多層符号化層を含むことができ、符号化層はマスク付きのマルチヘッドアテンションメカニズムを含む。ストリーミング意味ベクトル融合層は、一方向LSTM層であっても良い。意味理解マルチタスク層は意図認識ブランチ及びスロット認識ブランチを含むことができる。
ここで、意味認識モデル内のストリーミング意味符号化層は、事前にトレーニングされたストリーミング意味符号化層であってもよい。
例示的な実施例では、以下の方式により、事前にトレーニングされたストリーミング意味符号化層を取得することができる。初期のストリーミング意味符号化層を取得し、事前トレーニングデータを取得し、ここで、事前トレーニングデータが、予め設定された数より大きいオブジェクトシーケンスを含み、初期のストリーミング意味符号化層に基づいて事前トレーニングモデルを構築し、事前トレーニングデータを使用して事前トレーニングモデルをトレーニングして、トレーニングされた事前トレーニングモデル内のストリーミング意味符号化層を取得する。
ここで、予め設定された数は必要に応じて設定することができる。なお、予め設定された数が大きいほど、事前トレーニングデータに含まれるオブジェクトシーケンスが多くなり、事前トレーニングデータを使用して取得したトレーニングモデル内のストリーミング意味符号化層の予測精度が高いことは理解される。実際の応用では、マンマシンの音声インタラクションシステムの意味認識の精度を向上させるために、予め設定された数がより大きい数値に設定することができる。
オブジェクトシーケンスは、オブジェクトから構成されるシーケンスであり、例えば、オブジェクトの「我」「想」「听」から構成されるシーケンスである。オブジェクトシーケンスにおける第1のシーケンスは、オブジェクトシーケンスにおける任意のオブジェクトである。
ここで、事前トレーニングモデルは、transformer構造に基づくrobertaモデルとelectraモデルを使用して構成され得る。ここで、Electraモデルとrobertaモデルはいずれもtransformer構造に基づくものである一方、Electraモデルの復号部分についてはrobertaモデルを参照している。
事前トレーニングモデルを具体的にトレーニングする際に、深層学習の方式を使用してトレーニングすることができ、具体的に事前トレーニングモデルをトレーニングするプロセスは、関連技術における説明を参照することができ、ここでは説明を省略する。
現在、ユーザの音声はますます自由化、口語化になり、ロングテール表現はますます豊富になり、本出願の実施例では、大規模な教師なし事前トレーニングコーパスに基づいて、transformer構造に基づく事前トレーニングモデルをトレーニングして、事前にトレーニングされたストリーミング意味符号化層を取得することができ、LSTMネットワーク及びRNNネットワークと比較して、transformerは長距離コンテキストに対してモデリング能力がより強いため、事前トレーニングモデルをトレーニングして取得された事前にトレーニングされたストリーミング意味符号化層を使用して、意味認識プロセスにおけるオブジェクトの意味ベクトルを取得して、意味認識装置におけるロングテール表現、冗長口語の汎用性及び意味認識モデルに対する意味認識モデルのマイグレーション能力を向上させることができ、ユーザのロングテール表現、冗長口語の表現が含まれる表現の意味理解の精度を向上させる。
また、音声認識結果が音節を単位にする場合、音が正しいが文字が誤るという認識問題によるエラーの累積を明らかに改善できる一方、ある程度は同音異義の問題などの曖昧な要素も導入される可能性があり、このような問題はコンテキストと併せて意味を十分理解する必要がある。本出願で採用されたtransformer構造に基づく事前にトレーニングされたストリーミング意味符号化層は、十分強い特徴付け能力を備えており、十分大きな規模の教師なし事前トレーニングデータを学習することにより、より十分、豊かな意味表現を取得することができ、さらに音声認識結果は音節を単位にする場合、導入される同音異義の問題を改善することができる。
例示的な実施例では、初期の意味認識モデルをトレーニングして、トレーニングされた意味認識モデルを取得する時、トレーニングデータは意図トレーニングデータ、スロットトレーニングデータ、及び意図スロットトレーニングデータのうちの少なくとも1つを含むことができる。
ここで、意図トレーニングデータは意図トレーニングデータが表示されたトレーニングデータであり、スロットトレーニングデータはスロットが表示されたトレーニングデータであり、図スロットトレーニングデータは意図及びスロットが表示されたトレーニングデータである。
例示的な実施例では、トレーニングデータを使用して、初期の意味認識モデルをトレーニングして、トレーニングされた意味認識モデルを取得し、さらに、トレーニングされた意味認識モデル内のストリーミング意味符号化層、ストリーミング意味ベクトル融合層、及び意味理解マルチタスク層を認識する時のストリーミング意味符号化層、ストリーミング意味ベクトル融合層、及び意味理解マルチタスク層とする。
例示的な実施例では、以下のステップ503a~ステップ503cに示すような方式によって、トレーニングデータを使用して、初期の意味認識モデルをトレーニングすることができる。
ステップ503a、トレーニングデータが意図トレーニングデータ、スロットトレーニングデータ、及び意図スロットトレーニングデータを含む場合、意図スロットトレーニングデータを使用して、事前にトレーニングされたストリーミング意味符号化層、ストリーミング意味ベクトル融合層、及び意味理解マルチタスク層をトレーニングする。
ステップ503b、意図トレーニングデータを使用して、事前にトレーニングされたストリーミング意味符号化層、ストリーミング意味ベクトル融合層、及び意味理解マルチタスク層内の意図認識ブランチをトレーニングする。
ステップ503c、スロットトレーニングデータを使用して、事前にトレーニングされたストリーミング意味符号化層、ストリーミング意味ベクトル融合層、及び意味理解マルチタスク層内のスロット認識ブランチをトレーニングする。
具体的には、トレーニングデータが意図トレーニングデータ、スロットトレーニングデータ、及び意図スロットトレーニングデータを含む場合、意図スロットトレーニングデータを使用して、事前にトレーニングされたストリーミング意味符号化層、ストリーミング意味ベクトル融合層、及び意味理解マルチタスク層をトレーニングすることができ、このとき、全体の意味認識モデルに含まれる事前にトレーニングされたストリーミング意味符号化層、ストリーミング意味ベクトル融合層、及び意味理解マルチタスク層のパラメータはいずれもトレーニング更新に参加する。その後、意図トレーニングデータを使用して、事前にトレーニングされたストリーミング意味符号化層、ストリーミング意味ベクトル融合層、及び意味理解マルチタスク層内の意図認識ブランチをトレーニングして、事前にトレーニングされたストリーミング意味符号化層、ストリーミング意味ベクトル融合層のパラメータを更新し、意味理解マルチタスク層内の意図認識ブランチのパラメータを微調整する。その後、スロットトレーニングデータを使用して、事前にトレーニングされたストリーミング意味符号化層、ストリーミング意味ベクトル融合層、及び意味理解マルチタスク層内のスロット認識ブランチをトレーニングして、事前にトレーニングされたストリーミング意味符号化層、ストリーミング意味ベクトル融合層のパラメータを更新し、意味理解マルチタスク層内のスロット認識ブランチのパラメータを微調整する。
実際の応用シーンでは、スロットトレーニングデータを取得するコストは意図トレーニングデータを遥かに上回り、例えば、スロットトレーニングデータと意図トレーニングデータは、いずれかも人工的にタグ付けする方式、または自動マイニングの方法を使用して、同じ時間内に取得され、取得された高品質の意図トレーニングデータの数は、スロットトレーニングデータを遥かに上回る。同様に、意図スロットトレーニングデータを取得するコストも意図トレーニングデータを上回る。したがって、意図スロットトレーニングデータの数は意図トレーニングデータを遥かに下回る。意図スロットトレーニングデータのみに基づいて、意味認識モデルをトレーニングする場合、トレーニング効果は比較的悪い可能性がある。
本出願の実施例では、意図スロットトレーニングデータを使用して、事前にトレーニングされたストリーミング意味符号化層、ストリーミング意味ベクトル融合層、及び意味理解マルチタスク層から構成される意味認識モデルをトレーニングし、さらに、意図トレーニングデータを使用して、事前にトレーニングされたストリーミング意味符号化層、ストリーミング意味ベクトル融合層、及び意味理解マルチタスク層の意図認識ブランチトをレーニングし、さらに、スロットトレーニングデータを使用して、事前にトレーニングされたストリーミング意味符号化層、ストリーミング意味ベクトル融合層、及び意味理解マルチタスク層のスロット認識ブランチをトレーニングし、意図スロットトレーニングデータ、意図トレーニングデータ、スロットトレーニングデータを使用して、意味認識モードに対して混合トレーニングを行うことにより、大規模な意図トレーニングデータ、限られたスロットトレーニングデータ、及び意図スロットトレーニングデータを十分に使用して、意味認識モデルのトレーニング効果をさらに向上させることができる。
例示的な実施例では、ステップ503a、503b、503cの実行順序は、他のいずれかの順序であってもよく、本出願はこれに限定されない。
本出願の実施例によって提供される意味認識方法は、順番に接続された事前にトレーニングされたストリーミング意味符号化層、ストリーミング意味ベクトル融合層、及び意味理解マルチタスク層を含む初期の意味認識モデル、及び意味認識モデルのトレーニングデータを取得した後、トレーニングデータを使用して、初期の意味認識モデルをトレーニングして、トレーニングされた意味認識モデルを取得し、さらに、トレーニングされた意味認識モデル内のストリーミング意味符号化層、ストリーミング意味ベクトル融合層、及び意味理解マルチタスク層を取得することができる。これにより、トレーニングされたストリーミング意味符号化層、ストリーミング意味ベクトル融合層、及び意味理解マルチタスク層を取得することを実現し、したがって、トレーニングされたストリーミング意味符号化層、ストリーミング意味ベクトル融合層、及び意味理解マルチタスク層を使用して、ユーザの音声に対して実体意味認識をリアルタイムに行うことができる。
以下、図6と併せて、本明によって提供される意味認識装置について説明する。
図6は本出願の第5の実施例に係る意味認識装置の概略構成図である。
図6に示すように、本出願によって提供される意味認識装置600は、第1の取得モジュール601、第2の取得モジュール602、第3の取得モジュール603を備える。
ここで、第1取得モジュール601は処理対象の音声の音声認識結果を取得することに用いられ、ここで、音声認識結果は、新規認識結果セグメント及び履歴認識結果セグメントを含み、ここで、新規認識結果セグメントは処理対象の音声内の新規音声セグメントに対応する認識結果セグメントである。
第2の取得モジュール602は、履歴認識結果セグメント内の各履歴オブジェクトの意味ベクトルを取得し、各履歴オブジェクトの意味ベクトル及び新規認識結果セグメント内の各新規オブジェクトを、ストリーミング意味符号化層に入力して、各新規オブジェクトの意味ベクトルを取得することに用いられる。
第3の取得モジュール603は、各履歴オブジェクトの意味ベクトル及び各新規オブジェクトの意味ベクトルを、順番に配列されたストリーミング意味ベクトル融合層と意味理解マルチタスク層に入力し、処理対象の音声の意味認識結果を取得することに用いられる。
なお、本実施例によって提供される意味認識装置は、前記実施例の意味認識方法を実行することができる。ここで、意味認識装置は、電子機器であってもよいし、マンマシン音声インタラクションシステムの応答時間を短縮し、インタラクション効率を向上させ、ユーザ体験を改善するために、電子機器内に配置されてもよい。
ここで、電子機器は、データ処理を任意に行うことができる固定またはモバイルコンピューティングデバイス、例えば、ノートパソコン、スマートフォン、ウェアラブルデバイスなどのモバイルコンピューティングデバイス、またはデスクトップコンピュータなどの静止のコンピューティングデバイス、またはサーバ、または他のタイプのコンピューティングデバイスなどであってもよい。意味認識装置は、電子機器であってもよいし、または電子機器にインストールされる意味認識を行うためのアプリケーションであってもよいし、この意味認識アプリケーションの管理者、開発者が使用するこのアプリケーションを管理、維持するためのウェブページ、アプリケーションなどであってもよいし、本出願はこれに限定されない。
なお、前記意味認識方法の実施例の説明は、本出願によって提供される意味認識装置にも適用され、ここでは説明を省略する。
本出願の実施例によって提供される意味認識装置は、まず処理対象の音声の音声認識結果を取得し、さらに履歴認識結果セグメント内の各履歴オブジェクトの意味ベクトルを取得し、各履歴オブジェクトの意味ベクトル及び新規認識結果セグメント内の各新規オブジェクトを、ストリーミング意味符号化層に入力して、各新規オブジェクトの意味ベクトルを取得し、さらに、各履歴オブジェクトの意味ベクトル及び各新規オブジェクトの意味ベクトルを順番に配列されたストリーミング意味ベクトル融合層と意味理解マルチタスク層に入力して、処理対象の音声の意味認識結果を取得する。これにより、ユーザの音声に対するリアルタイムの意味認識を実現し、マンマシン音声インタラクションシステムの応答時間を短縮し、インタラクション効率を向上させ、ユーザ体験を改善する。
以下、図7と併せて、本出願によって提供される意味認識装置について説明する。
図7は本願の第6の実施例に係る意味認識装置の概略構成図である。
図7に示すように、意味認識装置700は、具体的には、第1の取得モジュール701、第2の取得モジュール702、第3の取得モジュール703を備え、ここで、図7の701~703は、図6の601~603と同じ機能を有する。
例示的な実施例では、図7に示すように、第2の取得モジュール702は、具体的には、第1の取得ユニット7021、処理ユニット7022、第2の取得ユニット7023を備えることができる。
ここで、第1の取得ユニット7021は、各新規オブジェクトのスプライシングベクトルを取得することに用いられ、スプライシングベクトルは新規オブジェクトのオブジェクトベクトル及び位置ベクトルに基づいてスプライシングすることによって取得される。
処理ユニット7022は、ストリーミング意味符号化層内の各履歴オブジェクトの中間結果に対して初期化設定を行い、設定されたストリーミング意味符号化層を取得することに用いられる。
第2の取得ユニット7023は、各新規オブジェクトのスプライシングベクトルを設定されたストリーミング意味符号化層に入力して、各新規オブジェクトの意味ベクトルを取得することに用いられる。
例示的な実施例では、図7に示すように、上記第3の取得モジュール703は、第3の取得ユニット7031、第4の取得ユニット7032を備えることができる。
ここで、第3の取得ユニット7031は、各履歴オブジェクトの意味ベクトル及び各新規オブジェクトの意味ベクトルをストリーミング意味ベクトル融合層に入力して、各履歴オブジェクトの融合意味ベクトル、及び各新規オブジェクトの融合意味ベクトルを取得することに用いられる。ここで、新規オブジェクトの融合意味ベクトルは、新規オブジェクト及び以前のオブジェクトに対して意味ベクトル融合を行うことによって取得される。
第4の取得ユニット7032は、各履歴オブジェクトの融合意味ベクトル及び各新規オブジェクトの融合意味ベクトルを意味理解マルチタスク層に入力して、処理対象の音声の意味認識結果を取得する。
例示的な実施例では、意味理解マルチタスク層は、意図認識ブランチ及びスロット認識ブランチを含み、これに応じて、上記第4の取得ユニットは、第1の取得サブユニット、第2の取得サブユニット、及び生成サブユニットを備えることができる。
ここで、第1の取得サブユニットは、各新規オブジェクトのうち最後にソートされた第1の新規オブジェクトの融合意味ベクトルを意図認識ブランチに入力して、処理対象の音声の意図認識結果を取得する。
第2の取得サブユニットは、各履歴オブジェクトの融合意味ベクトル及び各新規オブジェクトの融合意味ベクトルをスロット認識ブランチに入力して、処理対象の音声のスロット認識結果を取得することに用いられる。
生成サブユニットは意図認識結果及びスロット認識結果に基づいて、処理対象の音声の意味認識結果を生成することに用いられる。
例示的な実施例では、図7に示すように、意味認識装置700は、第4の取得モジュール704、第5の取得モジュール705、トレーニングモジュール706、及び第6の取得モジュール707をさらに備えることができる。
ここで、第4の取得モジュール704は、順番に接続された事前にトレーニングされたストリーミング意味符号化層、ストリーミング意味ベクトル融合層、及び意味理解マルチタスク層を含む初期の意味認識モデルを取得することに用いられる。
第5の取得モジュール705は、意味認識モデルのトレーニングデータを取得することに用いられる。
トレーニングモジュール706は、トレーニングデータを使用して初期の意味認識モデルをトレーニングして、トレーニングされた意味認識モデルを取得することに用いられる。
第6の取得モジュール707は、トレーニングされた意味認識モデル内のストリーミング意味符号化層、ストリーミング意味ベクトル融合層、及び意味理解マルチタスク層を取得することに用いられる。
例示的な実施例では、トレーニングデータは、意図トレーニングデータ、スロットトレーニングデータ、及び意図スロットトレーニングデータのうちの少なくとも1つを含み、それに応じて、トレーニングモジュール706は、トレーニングデータが意図トレーニングデータ、スロットトレーニングデータ、及び意図スロットトレーニングデータを含む場合、意図スロットトレーニングデータを使用して、事前にトレーニングされたストリーミング意味符号化層、ストリーミング意味ベクトル融合層、及び意味理解マルチタスク層をトレーニングするための第1のトレーニングユニットと、意図トレーニングデータを使用して、事前にトレーニングされたストリーミング意味符号化層、ストリーミング意味ベクトル融合層、及び意味理解マルチタスク層内の意図認識ブランチをトレーニングするための第2のトレーニングユニットと、スロットトレーニングデータを使用して、事前にトレーニングされたストリーミング意味符号化層、ストリーミング意味ベクトル融合層、及び意味理解マルチタスク層内のスロット認識ブランチをトレーニングするための第3のトレーニングユニットと、を備えることができる。
例示的な実施例では、第4の取得モジュール704は、初期のストリーミング意味符号化層を取得するための第5の取得ユニットと、予め設定された数よりも大きいオブジェクトシーケンスを含む事前トレーニングデータを取得するための第6の取得ユニットと、初期のストリーミング意味符号化層に基づいて事前トレーニングモデルを構築するための構築ユニットと、事前トレーニングデータを使用して事前トレーニングモデルをトレーニングして、トレーニングされた事前トレーニングモデル内のストリーミング意味符号化層を取得するための第4のトレーニングユニットと、を備えることができる。
例示的な実施例では、上記第1の取得モジュール701は、処理対象の音声を音節認識モデルに入力して、処理対象の音声の音節認識結果を取得し、及び音節認識結果を処理対象の音声の音声認識結果とするための第7の取得ユニットを備えることができる。
例示的な実施例では、上記ストリーミング意味符号化層はtransformerモデルの多層符号化層を含み、符号化層はマスク付きのマルチヘッドアテンションメカニズムを含み、上記ストリーミング意味ベクトル融合層は、一方向LSTM層である。
なお、上記意味認識方法の実施例の説明は、本出願によって提供される意味認識装置にも適用され、ここでは説明を省略する。
本出願の実施例によって提供される意味認識装置は、まず処理対象の音声の音声認識結果を取得し、さらに履歴認識結果セグメント内の各履歴オブジェクトの意味ベクトルを取得し、各履歴オブジェクトの意味ベクトル及び新規認識結果セグメント内の各新規オブジェクトを、ストリーミング意味符号化層に入力して、各新規オブジェクトの意味ベクトルを取得し、さらに、各履歴オブジェクトの意味ベクトル及び各新規オブジェクトの意味ベクトルを、順番に配列されたストリーミング意味ベクトル融合層と意味理解マルチタスク層に入力して、処理対象の音声の意味認識結果を取得する。これにより、ユーザの音声に対するリアルタイムの意味認識を実現し、マンマシン音声インタラクションシステムの応答時間を短縮し、インタラクション効率を向上させ、ユーザ体験を改善する。
本出願の実施例によれば、本出願は、電子機器及び読み取り可能な記憶媒体をさらに提供する。
本出願の実施例によれば、本出願は、コンピュータプログラムを提供し、コンピュータプログラムは、コンピュータに本出願によって提供される意味認識方法を実行させる。
図8に示すように、本出願の実施形態に係る意味認識方法のブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、及び他の適切なコンピュータなどの様々な形態のデジタルコンピュータを表すことを目的とする。電子機器は、パーソナルデジタルプロセッサ、携帯電話、スマートフォン、ウェアラブルデバイス、他の同様のコンピューティングデバイスなどの様々な形態のモバイルデバイスを表すこともできる。本明細書で示されるコンポーネント、それらの接続と関係、及びそれらの機能は単なる例であり、本明細書の説明及び/又は要求される本出願の実現を制限することを意図したものではない。
図8に示すように、当該電子機器は、1つ又は複数のプロセッサ801と、メモリ802と、高速インターフェース及び低速インターフェースを備える、各コンポーネントを接続するためのインターフェースと、を備える。各コンポーネントは、異なるバスで相互に接続され、共通のマザーボードに取り付けられるか、又は必要に応じて他の方式で取り付けることができる。プロセッサは、外部入力/出力装置(インターフェースに結合されたディスプレイデバイスなど)にGUIの図形情報をディスプレイするためにメモリ内又はメモリに記憶されている命令を含む、電子機器内に実行される命令を処理することができる。他の実施形態では、必要であれば、複数のプロセッサ及び/又は複数のバスを、複数のメモリとともに使用することができる。同様に、複数の電子機器を接続することができ、各電子機器は、部分的な必要な操作(例えば、サーバアレイ、ブレードサーバ、又はマルチプロセッサシステムとする)を提供する。図8では、1つのプロセッサ801を例とする。
メモリ802は、本出願により提供される非一時的なコンピュータ読み取り可能な記憶媒体である。ここで、前記メモリには、少なくとも1つのプロセッサが本出願により提供される意味認識方法を実行するように、前記少なくとも1つのプロセッサによって実行可能な命令が記憶されている。本出願の非一時的なコンピュータ読み取り可能な記憶媒体には、コンピュータに本出願により提供される意味認識方法を実行させるためのコンピュータ命令が記憶されている。
メモリ802は、非一時的なコンピュータ読み取り可能な記憶媒体として、本出願の実施例における意味認識方法に対応するプログラム命令/モジュール(例えば、図6に示す第1の取得モジュール601、第2の取得モジュール602、第3の取得モジュール603)のような、非一時的なソフトウェアプログラム、非一時的なコンピュータ実行可能なプログラム及びモジュールを記憶する。プロセッサ801は、メモリ802に記憶されている非一時的なソフトウェアプログラム、命令及びモジュールを実行することによって、サーバの様々な機能アプリケーション及びデータ処理を実行し、すなわち上記方法の実施例における意味認識方法を実現する。
メモリ802は、プログラム記憶領域とデータ記憶領域とを含むことができ、ここで、プログラム記憶領域は、オペレーティングシステム、少なくとも1つの機能に必要なアプリケーションプログラムを記憶することができ、データ記憶領域は、意味認識方法の電子機器の使用によって作成されたデータなどを記憶することができる。また、メモリ802は、高速ランダムアクセスメモリを備えることができ、非一時的なメモリをさらに含むことができ、例えば、少なくとも1つのディスクストレージデバイス、フラッシュメモリデバイス、又は他の非一時的なソリッドステートストレージデバイスである。いくつかの実施例では、メモリ802は、プロセッサ801に対して遠隔に設定されたメモリを選択的に備えることができ、これらの遠隔メモリは、ネットワークを介してこの電子機器に接続されることができる。上記ネットワークの例は、インターネット、イントラネット、ローカルエリアネットワーク、モバイル通信ネットワーク、及びその組み合わせを含むが、これらに限定されない。
意味認識方法の電子機器は、入力装置803と出力装置804とをさらに備えることができる。プロセッサ801、メモリ802、入力装置803、及び出力装置804は、バス又は他の方式を介して接続することができ、図8では、バスによる接続を例とする。
入力装置803は、入力された数字又は文字情報を受信し、この電子機器のユーザ設定及び機能制御に関するキー信号入力を生成することができ、例えば、タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、ポインティングスティック、1つ又は複数のマウスボタン、トラックボール、ジョイスティックなどの入力装置である。出力装置804は、ディスプレイデバイス、補助照明デバイス(例えば、LED)、及び触覚フィードバックデバイス(例えば、振動モータ)などを備えることができる。当該ディスプレイデバイスは、液晶ディスプレイ(LCD)、発光ダイオード(LED)ディスプレイ、及びプラズマディスプレイを備えることができるが、これらに限定されない。いくつかの実施形態では、ディスプレイデバイスは、タッチスクリーンであってもよい。
本明細書で説明されるシステムと技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、特定用途向けASIC(特定用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせで実現することができる。これらの様々な実施形態は、1つ又は複数のコンピュータプログラムで実施され、当該1つ又は複数のコンピュータプログラムは、少なくとも1つのプログラマブルプロセッサを備えるプログラム可能なシステムで実行及び/又は解釈されることができ、当該プログラマブルプロセッサは、専用又は汎用のプログラマブルプロセッサであってもよく、ストレージシステム、少なくとも1つの入力装置、及び少なくとも1つの出力装置からデータ及び命令を受信し、データ及び命令を当該ストレージシステム、当該少なくとも1つの入力装置、及び当該少なくとも1つの出力装置に伝送することができる。
これらのコンピューティングプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、又はコードとも呼ばれる)は、プログラマブルプロセッサの機械命令を含み、高度プロセス及び/又はオブジェクト指向プログラミング言語、及び/又はアセンブリ/機械言語でこれらのコンピューティングプログラムを実施することができる。本明細書に使用されるような、「機械読み取り可能な媒体」及び「コンピュータ読み取り可能な媒体」という用語は、機械命令及び/又はデータをプログラマブルプロセッサに提供するために使用される任意のコンピュータプログラム製品、機器、及び/又は装置(例えば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス(PLD))を指し、機械読み取り可能な信号である機械命令を受信する機械読み取り可能な媒体を含む。「機械読み取り可能な信号」という用語は、機械命令及び/又はデータをプログラマブルプロセッサに提供するための任意の信号を指す。
ユーザとのインタラクションを提供するために、ここで説明されているシステム及び技術をコンピュータ上で実施することができ、当該コンピュータは、ユーザに情報を表示するためのディスプレイ装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニタ)と、キーボード及びポインティングデバイス(例えば、マウス又はトラックボール)とを有し、ユーザは、当該キーボード及び当該ポインティングデバイスによって入力をコンピュータに提供することができる。他の種類の装置は、ユーザとのインタラクションを提供することもでき、例えば、ユーザに提供されるフィードバックは、任意の形態のセンシングフィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、任意の形態(音響入力と、音声入力と、触覚入力とを含む)でユーザからの入力を受信することができる。
ここで説明されるシステム及び技術は、バックエンドコンポーネントを備えるコンピューティングシステム(例えば、データサーバとする)、又はミドルウェアコンポーネントを備えるコンピューティングシステム(例えば、アプリケーションサーバ)、又はフロントエンドコンポーネントを備えるコンピューティングシステム(例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータ、ユーザは、当該グラフィカルユーザインタフェース又は当該ウェブブラウザによってここで説明されるシステム及び技術の実施形態とインタラクションする)、又はこのようなバックエンドコンポーネントと、ミドルウェアコンポーネントと、フロントエンドコンポーネントの任意の組み合わせを備えるコンピューティングシステムで実施することができる。任意の形態又は媒体のデジタルデータ通信(例えば、通信ネットワーク)によってシステムのコンポーネントを相互に接続することができる。通信ネットワークの例は、ローカルエリアネットワーク(LAN)と、ワイドエリアネットワーク(WAN)と、インターネットとを含む。
コンピュータシステムは、クライアントとサーバとを備えることができる。クライアントとサーバは、一般に、互いに離れており、通常に通信ネットワークを介してインタラクションする。対応するコンピュータ上で実行され、互いにクライアント-サーバ関係を有するコンピュータプログラムによってクライアントとサーバとの関係が生成される。
本出願は人工知能技術分野に関し、特に深層学習、自然言語処理技術分野に関する。
なお、人工知能はコンピュータが人間のある思考過程及び知能行為(例えば、学習、推理、思考、計画など)の科学をシミュレーションするようにし、ハードウェアレベルの技術もソフトウェアレベルの技術もある。人工知能ハードウェア技術は一般的には、センサー、専用人工知能チップ、クラウド計算、分散式記憶、ビッグデータ処理などの技術を含む。人工知能ソフトウェア技術は主にコンピュータ視覚、音声認識技術、自然言語処理技術及び機械学習/深層学習、ビッグデータ処理技術、知識図鑑技術などのいくつかの方向を含む。
本出願の実施例の技術案によれば、ユーザの音声に対するリアルタイムの意味認識を実現し、マンマシン音声インタラクションシステムの応答時間を短縮し、インタラクション効率を向上させ、ユーザ体験を改善する。
なお、上記に示される様々な形態のフローを使用して、ステップを並べ替え、追加、又は削除することができることを理解されたい。例えば、本出願に記載されている各ステップは、並列に実行されてもよいし、順番に的に実行されてもよいし、異なる順序で実行されてもよいが、本出願で開示されている技術案の所望の結果を実現することができれば、本明細書では限定されない。

Claims (21)

  1. 処理対象の音声の音声認識結果を取得するステップであって、前記音声認識結果には、新規認識結果セグメント及び履歴認識結果セグメントが含まれ、前記新規認識結果セグメントが、前記処理対象の音声内の新規音声セグメントに対応する認識結果セグメントであるステップと、
    前記履歴認識結果セグメント内の各履歴オブジェクトの意味ベクトルを取得し、前記各履歴オブジェクトの意味ベクトル及び前記新規認識結果セグメント内の各新規オブジェクトをストリーミング意味符号化層に入力して、前記各新規オブジェクトの意味ベクトルを取得するステップと、
    前記各履歴オブジェクトの意味ベクトル及び前記各新規オブジェクトの意味ベクトルを、順番に配列されたストリーミング意味ベクトル融合層及び意味理解マルチタスク層に入力して、前記処理対象の音声の意味認識結果を取得するステップと、
    を含む意味認識方法。
  2. 前記各履歴オブジェクトの意味ベクトル及び前記新規認識結果セグメント内の各新規オブジェクトをストリーミング意味符号化層に入力して、前記各新規オブジェクトの意味ベクトルを取得するステップが、
    前記各新規オブジェクトのスプライシングベクトルを取得するステップであって、前記スプライシングベクトルが、新規オブジェクトのオブジェクトベクトル及び位置ベクトルに基づいてスプライシングすることによって取得されるステップと、
    前記各履歴オブジェクトの意味ベクトルに基づいて、前記ストリーミング意味符号化層における前記各履歴オブジェクトの中間結果に対して初期化設定を行って、設定されたストリーミング意味符号化層を取得するステップと、
    前記各新規オブジェクトのスプライシングベクトルを前記設定されたストリーミング意味符号化層に入力して、前記各新規オブジェクトの意味ベクトルを取得するステップと、
    を含む請求項1に記載の意味認識方法。
  3. 前記各履歴オブジェクトの意味ベクトル及び前記各新規オブジェクトの意味ベクトルを、順番に配列されたストリーミング意味ベクトル融合層及び意味理解マルチタスク層に入力して、前記処理対象の音声の意味認識結果を取得するステップが、
    前記各履歴オブジェクトの意味ベクトル及び前記各新規オブジェクトの意味ベクトルを前記ストリーミング意味ベクトル融合層に入力して、前記各履歴オブジェクトの融合意味ベクトル、及び前記各新規オブジェクトの融合意味ベクトルを取得するステップであって、新規オブジェクトの融合意味ベクトルが、前記新規オブジェクト及び以前のオブジェクトに対して意味ベクトル融合を行うことによって取得されるステップと、
    前記各履歴オブジェクトの融合意味ベクトル及び前記各新規オブジェクトの融合意味ベクトルを前記意味理解マルチタスク層に入力して、前記処理対象の音声の意味認識結果を取得するステップと、
    を含む請求項1に記載の意味認識方法。
  4. 前記意味理解マルチタスク層が、意図認識ブランチ及びスロット認識ブランチを含み、
    前記各履歴オブジェクトの融合意味ベクトル及び前記各新規オブジェクトの融合意味ベクトルを前記意味理解マルチタスク層に入力して、前記処理対象の音声の意味認識結果を取得するステップが、
    前記各新規オブジェクトのうち最後にソートされた第1の新規オブジェクトの融合意味ベクトルを前記意図認識ブランチに入力して、前記処理対象の音声の意図認識結果を取得するステップと、
    前記各履歴オブジェクトの融合意味ベクトル及び前記各新規オブジェクトの融合意味ベクトルを前記スロット認識ブランチに入力して、前記処理対象の音声のスロット認識結果を取得するステップと、
    前記意図認識結果及び前記スロット認識結果に基づいて、前記処理対象の音声の意味認識結果を生成するステップと、
    を含む請求項3に記載の意味認識方法。
  5. 前記各履歴オブジェクトの意味ベクトル及び前記新規認識結果セグメント内の各新規オブジェクトをストリーミング意味符号化層に入力して、各新規オブジェクトの意味ベクトルを取得するステップの前に、
    順番に接続された事前にトレーニングされたストリーミング意味符号化層、ストリーミング意味ベクトル融合層及び意味理解マルチタスク層を含む初期の意味認識モデルを取得するステップと、
    前記意味認識モデルのトレーニングデータを取得するステップと、
    前記トレーニングデータを使用して前記初期の意味認識モデルをトレーニングして、トレーニングされた意味認識モデルを取得するステップと、
    前記トレーニングされた意味認識モデル内のストリーミング意味符号化層、ストリーミング意味ベクトル融合層及び意味理解マルチタスク層を取得するステップと、
    を含む請求項1に記載の意味認識方法。
  6. 前記トレーニングデータが、意図トレーニングデータ、スロットトレーニングデータ及び意図スロットトレーニングデータのうちの少なくとも1つを含み、
    前記トレーニングデータを使用して前記初期の意味認識モデルをトレーニングして、トレーニングされた意味認識モデルを取得するステップが、
    前記トレーニングデータが意図トレーニングデータ、スロットトレーニングデータ及び意図スロットトレーニングデータを含む場合、前記意図スロットトレーニングデータを使用して、前記事前にトレーニングされたストリーミング意味符号化層、前記ストリーミング意味ベクトル融合層及び前記意味理解マルチタスク層をトレーニングするステップと、
    前記意図トレーニングデータを使用して、前記事前にトレーニングされたストリーミング意味符号化層、前記ストリーミング意味ベクトル融合層及び前記意味理解マルチタスク層内の意図認識ブランチをトレーニングするステップと、
    前記スロットトレーニングデータを使用して、前記事前にトレーニングされたストリーミング意味符号化層、前記ストリーミング意味ベクトル融合層及び前記意味理解マルチタスク層内のスロット認識ブランチをトレーニングするステップと、
    を含む請求項5に記載の意味認識方法。
  7. 前記事前にトレーニングされたストリーミング意味符号化層が、
    初期のストリーミング意味符号化層を取得するステップと、
    予め設定された数より大きいオブジェクトシーケンスを含む事前トレーニングデータを取得するステップと、
    前記初期のストリーミング意味符号化層に基づいて事前トレーニングモデルを構築するステップと、
    前記事前トレーニングデータを使用して、前記事前トレーニングモデルをトレーニングして、トレーニングされた事前トレーニングモデル内のストリーミング意味符号化層を取得するステップと、
    を含む方法によって取得される請求項5に記載の意味認識方法。
  8. 前記処理対象の音声の音声認識結果を取得するステップが、
    前記処理対象の音声を音節認識モデルに入力して、前記処理対象の音声の音節認識結果を取得するステップと、
    前記音節認識結果を前記処理対象の音声の音声認識結果とするステップと、
    を含む請求項1に記載の意味認識方法。
  9. 前記ストリーミング意味符号化層が、翻訳(transformer)モデルの多層符号化層を含み、前記符号化層が、マスク付きのマルチヘッドアテンションメカニズムを含み、
    前記ストリーミング意味ベクトル融合層が、一方向長短期記憶ネットワーク(LSTM)層である請求項1に記載の意味認識方法。
  10. 処理対象の音声の音声認識結果を取得するための第1の取得モジュールであって、前記音声認識結果には、新規認識結果セグメント及び履歴認識結果セグメントが含まれ、前記新規認識結果セグメントが、前記処理対象の音声内の新規音声セグメントに対応する認識結果セグメントである第1の取得モジュールと、
    前記履歴認識結果セグメント内の各履歴オブジェクトの意味ベクトルを取得し、前記各履歴オブジェクトの意味ベクトル及び前記新規認識結果セグメント内の各新規オブジェクトをストリーミング意味符号化層に入力して、前記各新規オブジェクトの意味ベクトルを取得するための第2の取得モジュールと、
    前記各履歴オブジェクトの意味ベクトル及び前記各新規オブジェクトの意味ベクトルを、順番に配列されたストリーミング意味ベクトル融合層及び意味理解マルチタスク層に入力して、前記処理対象の音声の意味認識結果を取得するための第3の取得モジュールと、
    を備える意味認識装置。
  11. 前記第2の取得モジュールが、
    前記各新規オブジェクトのスプライシングベクトルを取得するための第1の取得ユニットであって、前記スプライシングベクトルが、新規オブジェクトのオブジェクトベクトル及び位置ベクトルに基づいてスプライシングすることによって取得される第1の取得ユニットと、
    前記各履歴オブジェクトの意味ベクトルに基づいて、前記ストリーミング意味符号化層における前記各履歴オブジェクトの中間結果に対して初期化設定を行って、設定されたストリーミング意味符号化層を取得するための処理ユニットと、
    前記各新規オブジェクトのスプライシングベクトルを前記設定されたストリーミング意味符号化層に入力して、前記各新規オブジェクトの意味ベクトルを取得するための第2の取得ユニットと、
    を備える請求項10に記載の意味認識装置。
  12. 前記第3の取得モジュールが、
    前記各履歴オブジェクトの意味ベクトル及び前記各新規オブジェクトの意味ベクトルを前記ストリーミング意味ベクトル融合層に入力して、前記各履歴オブジェクトの融合意味ベクトル、及び前記各新規オブジェクトの融合意味ベクトルを取得するための第3の取得ユニットであって、新規オブジェクトの融合意味ベクトルが、前記新規オブジェクト及び以前のオブジェクトに対して意味ベクトル融合を行うことによって取得される第3の取得ユニットと、
    前記各履歴オブジェクトの融合意味ベクトル及び前記各新規オブジェクトの融合意味ベクトルを前記意味理解マルチタスク層に入力して、前記処理対象の音声の意味認識結果を取得するための第4の取得ユニットと、
    を備える請求項10に記載の意味認識装置。
  13. 前記意味理解マルチタスク層が、意図認識ブランチ及びスロット認識ブランチを含み、
    前記第4の取得ユニットが、
    前記各新規オブジェクトのうち最後にソートされた第1の新規オブジェクトの融合意味ベクトルを前記意図認識ブランチに入力して、前記処理対象の音声の意図認識結果を取得するための第1の取得サブユニットと、
    前記各履歴オブジェクトの融合意味ベクトル及び前記各新規オブジェクトの融合意味ベクトルを前記スロット認識ブランチに入力して、前記処理対象の音声のスロット認識結果を取得するための第2の取得サブユニットと、
    前記意図認識結果及び前記スロット認識結果に基づいて、前記処理対象の音声の意味認識結果を生成するための生成サブユニットと、
    を備える請求項12に記載の意味認識装置。
  14. 順番に接続された事前にトレーニングされたストリーミング意味符号化層、ストリーミング意味ベクトル融合層及び意味理解マルチタスク層を含む初期の意味認識モデルを取得するための第4の取得モジュールと、
    前記初期の意味認識モデルのトレーニングデータを取得するための第5の取得モジュールと、
    前記トレーニングデータを使用して前記初期の意味認識モデルをトレーニングして、トレーニングされた意味認識モデルを取得するためのトレーニングモジュールと、
    前記トレーニングされた意味認識モデル内のストリーミング意味符号化層、ストリーミング意味ベクトル融合層及び意味理解マルチタスク層を取得するための第6の取得モジュールと、
    を備える請求項10に記載の意味認識装置。
  15. 前記トレーニングデータが、意図トレーニングデータ、スロットトレーニングデータ及び意図スロットトレーニングデータのうちの少なくとも1つを含み、
    前記トレーニングモジュールが、
    前記トレーニングデータが意図トレーニングデータ、スロットトレーニングデータ及び意図スロットトレーニングデータを含む場合、前記意図スロットトレーニングデータを使用して、前記事前にトレーニングされたストリーミング意味符号化層、前記ストリーミング意味ベクトル融合層及び前記意味理解マルチタスク層をトレーニングするための第1のトレーニングユニットと、
    前記意図トレーニングデータを使用して、前記事前にトレーニングされたストリーミング意味符号化層、前記ストリーミング意味ベクトル融合層及び前記意味理解マルチタスク層内の意図認識ブランチをトレーニングするための第2のトレーニングユニットと、
    前記スロットトレーニングデータを使用して、前記事前にトレーニングされたストリーミング意味符号化層、前記ストリーミング意味ベクトル融合層及び前記意味理解マルチタスク層内のスロット認識ブランチをトレーニングするための第3のトレーニングユニットと、
    を備える請求項14に記載の意味認識装置。
  16. 前記第4の取得モジュールが、
    初期のストリーミング意味符号化層を取得するための第5の取得ユニットと、
    予め設定された数よりも大きいオブジェクトシーケンスを含む事前トレーニングデータを取得するための第6の取得ユニットと、
    前記初期のストリーミング意味符号化層に基づいて事前トレーニングモデルを構築するための構築ユニットと、
    前記事前トレーニングデータを使用して前記事前トレーニングモデルをトレーニングして、トレーニングされた事前トレーニングモデル内のストリーミング意味符号化層を取得するための第4のトレーニングユニットと、
    を備える請求項14に記載の意味認識装置。
  17. 前記第1の取得モジュールが、
    前記処理対象の音声を音節認識モデルに入力して、前記処理対象の音声の音節認識結果を取得し、前記音節認識結果を前記処理対象の音声の音声認識結果とするための第7の取得ユニットを備える請求項10に記載の意味認識装置。
  18. 前記ストリーミング意味符号化層が、翻訳(transformer)モデルの多層符号化層を含み、前記符号化層が、マスク付きのマルチヘッドアテンションメカニズムを含み、
    前記ストリーミング意味ベクトル融合層が、一方向長短期記憶ネットワーク(LSTM)層である請求項10に記載の意味認識装置。
  19. 少なくとも1つのプロセッサと、
    該少なくとも1つのプロセッサに通信可能に接続されるメモリと、
    を備え、
    前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶され、前記命令が、前記少なくとも1つのプロセッサが請求項1から9のいずれか一項に記載の方法を実行できるように、前記少なくとも1つのプロセッサによって実行される電子機器。
  20. コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、
    前記コンピュータ命令は、コンピュータに請求項1から9のいずれか一項に記載の方法を実行させる非一時的なコンピュータ読み取り可能な記憶媒体。
  21. コンピュータに請求項1から9のいずれか一項に記載の方法を実行させるコンピュータプログラム。
JP2021168564A 2020-11-18 2021-10-14 意味認識方法、装置、機器及び記憶媒体 Active JP7280930B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202011294260.6A CN112530437B (zh) 2020-11-18 2020-11-18 语义识别方法、装置、设备以及存储介质
CN202011294260.6 2020-11-18

Publications (2)

Publication Number Publication Date
JP2022020051A true JP2022020051A (ja) 2022-01-31
JP7280930B2 JP7280930B2 (ja) 2023-05-24

Family

ID=74981178

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021168564A Active JP7280930B2 (ja) 2020-11-18 2021-10-14 意味認識方法、装置、機器及び記憶媒体

Country Status (3)

Country Link
US (1) US20220028376A1 (ja)
JP (1) JP7280930B2 (ja)
CN (1) CN112530437B (ja)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113177415B (zh) * 2021-04-30 2024-06-07 科大讯飞股份有限公司 语义理解方法、装置、电子设备和存储介质
CN113257248B (zh) * 2021-06-18 2021-10-15 中国科学院自动化研究所 一种流式和非流式混合语音识别系统及流式语音识别方法
CN113284508B (zh) * 2021-07-21 2021-11-09 中国科学院自动化研究所 基于层级区分的生成音频检测系统
CN113571044A (zh) * 2021-07-28 2021-10-29 北京有竹居网络技术有限公司 语音信息处理方法、装置和电子设备
CN113889076B (zh) * 2021-09-13 2022-11-01 北京百度网讯科技有限公司 语音识别及编解码方法、装置、电子设备及存储介质
CN114238644B (zh) * 2022-02-22 2022-06-07 北京澜舟科技有限公司 一种降低语义识别计算量的方法、系统及存储介质
CN114677517B (zh) * 2022-05-30 2022-08-26 山东巍然智能科技有限公司 一种无人机用语义分割网络模型及图像分割识别方法
CN115527525B (zh) * 2022-11-23 2023-04-18 广州小鹏汽车科技有限公司 语音识别模型生成方法、语音交互方法、车辆和存储介质
CN115810351B (zh) * 2023-02-09 2023-04-25 四川大学 一种基于视听融合的管制员语音识别方法及装置
CN116386145B (zh) * 2023-04-17 2023-11-03 浙江金融职业学院 一种基于双摄像头的银行内人员异常行为识别方法
CN116843345A (zh) * 2023-08-30 2023-10-03 深圳市艾德网络科技发展有限公司 基于人工智能技术对客户交易的智能风控系统及方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018528458A (ja) * 2015-12-04 2018-09-27 三菱電機株式会社 発話を処理する方法
JP2019086679A (ja) * 2017-11-08 2019-06-06 株式会社東芝 対話システム、対話方法および対話プログラム
JP2020067954A (ja) * 2018-10-26 2020-04-30 日鉄ソリューションズ株式会社 情報処理装置、情報処理方法及びプログラム
JP2020112787A (ja) * 2019-01-08 2020-07-27 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド 切断アテンションに基づくリアルタイム音声認識方法、装置、機器及びコンピュータ読み取り可能な記憶媒体
JP2020154076A (ja) * 2019-03-19 2020-09-24 国立研究開発法人情報通信研究機構 推論器、学習方法および学習プログラム

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3265864B2 (ja) * 1994-10-28 2002-03-18 三菱電機株式会社 音声認識装置
CN103325370B (zh) * 2013-07-01 2015-11-25 百度在线网络技术(北京)有限公司 语音识别方法和语音识别系统
US10860628B2 (en) * 2017-02-16 2020-12-08 Google Llc Streaming real-time dialog management
US10600406B1 (en) * 2017-03-20 2020-03-24 Amazon Technologies, Inc. Intent re-ranker
CN109309751B (zh) * 2017-07-28 2021-08-06 腾讯科技(深圳)有限公司 语音记录方法、电子设备及存储介质
CN109918678B (zh) * 2019-03-22 2023-02-24 创新先进技术有限公司 一种字段含义识别方法和装置
US11244673B2 (en) * 2019-07-19 2022-02-08 Microsoft Technologly Licensing, LLC Streaming contextual unidirectional models
CN110717017B (zh) * 2019-10-17 2022-04-19 腾讯科技(深圳)有限公司 一种处理语料的方法
US11853362B2 (en) * 2020-04-16 2023-12-26 Microsoft Technology Licensing, Llc Using a multi-task-trained neural network to guide interaction with a query-processing system via useful suggestions
CN111696535B (zh) * 2020-05-22 2021-10-26 百度在线网络技术(北京)有限公司 基于语音交互的信息核实方法、装置、设备和计算机存储介质
US11335062B2 (en) * 2020-08-14 2022-05-17 Accenture Global Solutions Limited Automated apparel design using machine learning

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018528458A (ja) * 2015-12-04 2018-09-27 三菱電機株式会社 発話を処理する方法
JP2019086679A (ja) * 2017-11-08 2019-06-06 株式会社東芝 対話システム、対話方法および対話プログラム
JP2020067954A (ja) * 2018-10-26 2020-04-30 日鉄ソリューションズ株式会社 情報処理装置、情報処理方法及びプログラム
JP2020112787A (ja) * 2019-01-08 2020-07-27 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド 切断アテンションに基づくリアルタイム音声認識方法、装置、機器及びコンピュータ読み取り可能な記憶媒体
JP2020154076A (ja) * 2019-03-19 2020-09-24 国立研究開発法人情報通信研究機構 推論器、学習方法および学習プログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ZHAO, XINLU ET AL.: ""A Joint Model based on CNN-LSTMs in Dialogue Understanding"", PROC. OF THE 2018 ICISCAE, JPN6022045905, 5 July 2018 (2018-07-05), pages 471 - 475, XP033530340, ISSN: 0004910776, DOI: 10.1109/ICISCAE.2018.8666842 *
岡谷貴之 他: ""ディープラーニング"", 情報処理学会研究報告, vol. Vol.2013-CVIM-185, No.19, JPN6022045903, 23 January 2013 (2013-01-23), pages 1 - 17, ISSN: 0004910775 *

Also Published As

Publication number Publication date
JP7280930B2 (ja) 2023-05-24
CN112530437B (zh) 2023-10-20
CN112530437A (zh) 2021-03-19
US20220028376A1 (en) 2022-01-27

Similar Documents

Publication Publication Date Title
JP2022020051A (ja) 意味認識方法、装置、機器及び記憶媒体
KR102350543B1 (ko) 시맨틱 표현 모델의 처리 방법, 장치, 전자 기기 및 저장 매체
JP7066349B2 (ja) 翻訳方法、翻訳装置及びコンピュータプログラム
CN110727806B (zh) 基于自然语言和知识图谱的文本处理方法及装置
US11417314B2 (en) Speech synthesis method, speech synthesis device, and electronic apparatus
JP7335293B2 (ja) ネットワークの訓練方法、装置、電子機器、記憶媒体およびコンピュータプログラム
KR102645185B1 (ko) 라벨링 모델을 구축하는 방법, 장치, 전자 기기, 프로그램 및 판독 가능 저장 매체
JP2021197138A (ja) エンティティ・リンキング方法、装置、機器、及び記憶媒体
JP2022058554A (ja) エンドツーエンドのテキスト音声変換
US11488577B2 (en) Training method and apparatus for a speech synthesis model, and storage medium
US20170140753A1 (en) Generating target sequences from input sequences using partial conditioning
JP2021190087A (ja) テキスト認識処理方法、装置、電子機器及び記憶媒体
JP2021157193A (ja) 音声合成方法及び対応するモデルのトレーニング方法、装置、電子機器、記憶媒体、並びにコンピュータプログラム
JP7204802B2 (ja) 対話生成方法、装置、電子機器及び媒体
JP2021119381A (ja) 音声スペクトル生成モデルの学習方法、装置、電子機器及びコンピュータプログラム製品
CN111241245B (zh) 人机交互处理方法、装置及电子设备
JP2022522379A (ja) トリガードアテンションを用いたエンドツーエンド音声認識のためのシステムおよび方法
JP6986592B2 (ja) リズム一時停止予測方法、装置および電子機器
JP2021111379A (ja) インタラクション情報推薦方法及び装置
JP2022008207A (ja) トリプルサンプルの生成方法、装置、電子デバイス及び記憶媒体
JP7230304B2 (ja) 対話生成方法、装置、電子機器、プログラム及び記憶媒体
US20220068265A1 (en) Method for displaying streaming speech recognition result, electronic device, and storage medium
JP2021192119A (ja) 音声合成モデルの属性登録方法、装置、電子機器、記憶媒体及びコンピュータプログラム
JP2022028889A (ja) 対話生成方法、装置、電子機器及び記憶媒体
US20230410794A1 (en) Audio recognition method, method of training audio recognition model, and electronic device

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211014

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20221020

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221101

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230124

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230509

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230512

R150 Certificate of patent or registration of utility model

Ref document number: 7280930

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150