JP6458149B2 - 車載音声命令の認識方法、装置及び記憶媒体 - Google Patents

車載音声命令の認識方法、装置及び記憶媒体 Download PDF

Info

Publication number
JP6458149B2
JP6458149B2 JP2017530131A JP2017530131A JP6458149B2 JP 6458149 B2 JP6458149 B2 JP 6458149B2 JP 2017530131 A JP2017530131 A JP 2017530131A JP 2017530131 A JP2017530131 A JP 2017530131A JP 6458149 B2 JP6458149 B2 JP 6458149B2
Authority
JP
Japan
Prior art keywords
user
intention
voice command
determining
reliability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017530131A
Other languages
English (en)
Other versions
JP2018503857A (ja
Inventor
シュン,リーフイ
オウヤン,ネンジュン
ムー,シャンユー
Original Assignee
バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド
バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド, バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド filed Critical バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド
Publication of JP2018503857A publication Critical patent/JP2018503857A/ja
Application granted granted Critical
Publication of JP6458149B2 publication Critical patent/JP6458149B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60RVEHICLES, VEHICLE FITTINGS, OR VEHICLE PARTS, NOT OTHERWISE PROVIDED FOR
    • B60R16/00Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for
    • B60R16/02Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements
    • B60R16/037Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements for occupant comfort, e.g. for automatic adjustment of appliances according to personal settings, e.g. seats, mirrors, steering wheel
    • B60R16/0373Voice control
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/227Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of the speaker; Human-factor methodology
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/09Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being zero crossing rates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Child & Adolescent Psychology (AREA)
  • Psychiatry (AREA)
  • Hospice & Palliative Care (AREA)
  • General Health & Medical Sciences (AREA)
  • Mechanical Engineering (AREA)
  • User Interface Of Digital Computer (AREA)
  • Navigation (AREA)

Description

[優先権主張]
本願は、2014年06月30日に出願された、出願番号が201510382215.9、出願人が百度在線網絡技術(北京)有限公司、発明名称が「車載音声命令の認識方法及び装置」である中国特許出願に基づく優先権を主張し、当該特許出願の全文を引用により本願に組み込む。
本発明の実施例はコンピュータデータ処理の技術分野に関し、特に車載音声命令の認識方法、装置及び記憶媒体に関する。
自動車工業の発展及び電子市場の成熟に従って、車載インテリジェント端末は自動車の重要な付属機器になっている。近年では、経済的な繁栄は中国国内の自動車の数が急激に増加するよう促し、それに応じて、人々が外出する時に利用する交通機関も変化しており、車の使用時間が長くなっている。従って、車載インテリジェント端末の機能は簡単なナビゲーションから多機能化に変わってくる。
新しく発展されてきた多くの機能のうち、音声命令の認識と実行は注目を集めている。ところが、従来の車載インテリジェント端末は自体に配置された命令セットが限られるため、ユーザの音声命令を正確に認識できない場合がよくある。例えば、従来の車載インテリジェント端末は、標準語の音声命令に対する認識率が高いが、各種の方言に対する認識率が低い。ユーザの異なる音声に対する適応性が低く、認識率が低いため、ユーザの使用障害を引き起こす。このように、ユーザが車載インテリジェント端末の音声命令認識機能を使用する比率は非常に低い。
上記技術的問題に鑑みて、音声命令の正確な認識率を向上させるために、本発明の実施例は車載音声命令の認識方法、装置及び記憶媒体を提供する。
第1態様によれば、本発明の実施例は車載音声命令の認識方法を提供し、この方法は、
ユーザが入力した音声命令を取得するステップと、
予めトレーニングされたディープニューラルネットワークDNNモデルに基づいてユーザの基本情報を決定するステップと、
前記ユーザの基本情報に基づいて音声命令に対してコンテンツ認識を行い、認識したコンテンツ及びユーザが前記音声命令を入力したシーンページのコンテキストに基づいて少なくとも1つのユーザの可能な意図を決定するステップと、
前記DNNモデルに基づいてユーザの可能な意図の信頼度を決定するステップと、
前記信頼度に基づいて前記ユーザの可能な意図からユーザの真意を決定するステップと、
前記ユーザの真意に基づいて対応する動作を実行するステップと、を含む。
第2態様によれば、本発明の実施例は車載音声命令の認識装置を提供し、この装置は、
ユーザが入力した音声命令を取得するための命令取得モジュールと、
予めトレーニングされたディープニューラルネットワークDNNモデルに基づいてユーザの基本情報を決定するための基本情報決定モジュールと、
前記ユーザの基本情報に基づいて音声命令に対してコンテンツ認識を行い、認識したコンテンツ及びユーザが前記音声命令を入力したシーンページのコンテキストに基づいて少なくとも1つのユーザの可能な意図を決定するための意図認識モジュールと、
前記DNNモデルに基づいてユーザの可能な意図の信頼度を決定するための信頼度決定モジュールと、
前記信頼度に基づいて前記ユーザの可能な意図からユーザの真意を決定するための意図決定モジュールと、
前記ユーザの真意に基づいて対応する動作を実行するための動作実行モジュールと、を備える。
第3態様によれば、本発明の実施例は1つ又は複数のコンピュータ実行可能命令を含む記憶媒体を提供し、前記コンピュータ実行可能命令がコンピュータプロセッサによって実行されると車載音声命令の認識方法を実行し、前記方法は、
ユーザが入力した音声命令を取得するステップと、
予めトレーニングされたディープニューラルネットワークDNNモデルに基づいてユーザの基本情報を決定するステップと、
前記ユーザの基本情報に基づいて音声命令に対してコンテンツ認識を行い、認識したコンテンツ及びユーザが前記音声命令を入力したシーンページのコンテキストに基づいて少なくとも1つのユーザの可能な意図を決定するステップと、
前記DNNモデルに基づいてユーザの可能な意図の信頼度を決定するステップと、
前記信頼度に基づいて前記ユーザの可能な意図からユーザの真意を決定するステップと、
前記ユーザの真意に基づいて対応する動作を実行するステップと、を含む。
本発明の実施例に係る車載音声命令の認識方法、装置及び記憶媒体は、ディープニューラルネットワークDNNモデルによってユーザの基本情報を取得し、ユーザが音声命令を入力する時のシーンページのコンテキストに基づいてユーザの可能な意図を判断し、前記ディープニューラルネットワークDNNモデルによって前記可能な意図の信頼度を計算し、最終的に当該信頼度に基づいてユーザの真意を確認し、対応する操作を実行することによって、ユーザの音声命令の正確な認識率を効果的に向上させる。
本発明の実施例における技術案をより明確的に説明するために、以下、実施例の記述に使用される添付図面について簡単に紹介し、無論、下記の説明される添付図面は、ただ本発明のいくつかの実施例であり、当業者にとって、創造的労働なしに、これらの添付図面を修正したり、置き換えたりしてもよい。
本発明の第1実施例に係る車載音声命令の認識方法のフローチャートである。 本発明の第2実施例に係る車載音声命令の認識方法における基本情報決定のフローチャートである。 本発明の第3実施例に係る車載音声命令の認識方法のフローチャートである。 本発明の第4実施例に係る車載音声命令の認識方法のフローチャートである。 本発明の第5実施例に係る車載音声命令の認識方法における信頼度決定のフローチャートである。 本発明の第6実施例に係る車載音声命令の認識方法における意図決定のフローチャートである。 本発明の第7実施例に係る車載音声命令の認識方法における動作実行のフローチャートである。 本発明の第8実施例に係る車載音声命令の認識方法のフローダイヤグラムである。 本発明の第9実施例に係る車載音声命令の認識装置の構造図である。
以下、図面と実施例を参照しながら、本発明における技術案を明らかで完全に説明する。明らかに、説明される実施例は、ただ本発明の一部の実施例であり、全部の実施例ではなく、ただ本発明の原理を解釈するためのものであり、本発明をこれらの一部の実施例に限定するためのものではない。本発明で開示されている実施例に基づいて、当業者にとっては、創造的労働なしに得られる全ての他の実施例が、本発明で保護される範囲に属する。
第1実施例
本実施例は車載音声命令の認識方法の技術案を提供する。本技術案は車載音声命令の認識装置で実行されてもよい。前記車載音声命令の認識装置はネットワーク側のサーバ内に集成されてもよい。前記サーバはインターネットによってユーザが車搭載機器で入力した音声命令を受信し、受信した音声命令を処理して、処理結果に基づいて、インターネットを介して次に実行する動作を車搭載機器に指示する。前記車載音声命令の認識装置は端末側の計算装置内に集成されてもい。この場合、前記計算装置はインターネットを介せず前記音声命令を取得することができる。
具体的には、図1に示されるように、前記車載音声命令の認識方法はS11〜S16を含む。
S11:ユーザが入力した音声命令を取得する。
自動車のインターネット概念(Internet of Vehicles)の出現に伴って、自動車内に一般的にネットワーク接続機能を有する車搭載機器を有するようになり、ユーザは自動車の内部に配置される車搭載機器で音声命令を入力することができる。前記音声命令はユーザが車搭載機器に実行してほしい次の操作を指定することができる。例えば、前記音声命令が「周杰倫の歌を再生する」である場合、車搭載機器は次にすべての周杰倫の歌を再生する動作を実行すべきである。
S12:予めトレーニングされたディープニューラルネットワーク(Deep neutral network、DNN)モデルに基づいてユーザの基本情報を決定する。
本実施例では、ユーザの入力音声に基づいてユーザのいくつかの基本情報を決定する必要がある。前記基本情報は、音声命令の入力時間、音声命令の入力場所、音声入力動作を実行するユーザの年齢、性別、出身地、延いては職業を含む。
上記基本情報に対する記憶と解析を統一するために、ユーザの「画像」を定義する。前記「画像」は上記基本情報を記憶するためのプロファイル型のデータ構造である。ユーザの各種の基本情報の属性は、前記「画像」の1つのフィールドとして記憶される。
ユーザの入力音声に基づいてユーザの基本情報を決定するために、1つのDNNモデルを予めトレーニングする必要がある。トレーニング過程において、トレーニング音声におけるゼロ交差率(zero-crossing rate、ZCR)、短時間エネルギー(short-time energy)、ケプストラム係数(cepstral coefficients)及び基本周波数(fundamental frequency)等の特徴をトレーニング音声の特徴パラメータとして抽出し、入力パラメータとして前記DNNモデルに入力し、前記DNNモデルの出力パラメータと前記トレーニング音声のアノテーションパラメータとの差異に基づいて前記DNNモデルのモデルパラメータを決定することができる。トレーニングが完了した後に、ユーザが入力した入力音声を受信した後に、前記DNNモデルは前記入力音声の特徴に基づいてユーザの年齢、性別、出身地、職業等の基本情報を正確に判断することができる。
S13:前記ユーザの基本情報に基づいて音声命令に対してコンテンツ認識を行い、認識したコンテンツ及びユーザが前記音声命令を入力したシーンページのコンテキストに基づいて少なくとも1つのユーザの可能な意図を決定する。
前記音声命令に対して実行するコンテンツ認識は前記音声命令に対する音声認識である。前記音声命令に対する音声認識はユーザの基本情報を参照して行う音声認識である。例えば、ユーザの出身地属性、及びユーザの出身地に対応する地域のアクセント特徴を参照し、ユーザの音声命令に対して音声認識を行うことができる。
前記音声命令に対するコンテンツ認識を完了した後に、更に前記音声命令に対してユーザの可能な意図を決定する。前記ユーザの可能な意図はユーザが前記音声命令を入力する時の可能性のある目的である。前記ユーザの可能な意図は車搭載機器が次に実行すべきな少なくとも1つの操作に対応する。例えば、前記音声命令「周杰倫の歌を再生する」に対して意図認識を行って得たユーザの可能な意図は、車搭載機器の周杰倫の歌を選択する操作、及び選択された歌を再生する操作に対応する。
S14:前記DNNモデルに基づいてユーザの可能な意図の信頼度を決定する。
ユーザの入力音声に対して少なくとも1つのユーザの可能な意図を決定した後に、前記DNNモデルに基づいて各ユーザの可能な意図の信頼度を決定する。更に、前記音声命令に対してコンテンツ認識を行った結果を分析して、当該結果を前記DNNモデルに入力することによって、ユーザの異なる可能な意図の信頼度を取得することができる。
S15:前記信頼度に基づいて前記ユーザの可能な意図からユーザの真意を決定する。
信頼度決定操作の後に、ユーザの異なる可能な意図は異なる信頼度に対応することを理解すべきである。この時、前記ユーザの可能な意図から、信頼度と予め決定した信頼度区間とのマッチング度が最も高い1つのユーザの可能な意図を、前記音声命令に対応するユーザの真意として選択する。
S16:前記ユーザの真意に基づいて対応する動作を実行する。
ユーザの真意を決定した後に、前記真意に対応する動作を実行する。前記動作は音声再生、ビデオ再生、図面表示、ウェブページオープン等であってもよい。
本実施例はユーザが入力した音声命令を取得し、予めトレーニングされたディープニューラルネットワークDNNモデルに基づいてユーザの基本情報を決定し、前記ユーザの基本情報に基づいて音声命令に対してコンテンツ認識を行い、認識したコンテンツ及びユーザが前記音声命令を入力したシーンページのコンテキストに基づいて少なくとも1つのユーザの可能な意図を決定し、前記DNNモデルに基づいてユーザの可能な意図の信頼度を決定し、前記信頼度に基づいて前記ユーザの可能な意図からユーザの真意を決定し、前記真意に基づいて対応する動作を実行することによって、音声命令の正確な認識率を効果的に向上させる。
第2実施例
本実施例は本発明の上記実施例を基礎として、更に前記車載音声命令の認識方法における基本情報決定用の技術案を提供する。当該技術案では、予めトレーニングされたディープニューラルネットワークDNNモデルに基づいてユーザの基本情報を決定するステップにおいては、前記音声命令からゼロ交差率、短時間エネルギー、ケプストラム係数及び基本周波数のうちの少なくとも1項を含む音声特徴パラメータを抽出するステップと、前記音声特徴パラメータ、前記位置及び前記時間を前記DNNの入力パラメータとして、前記DNNの出力パラメータに基づいてユーザの性別、年齢、出身地及び職業のうちの少なくとも1項を含むユーザの基本情報を決定するページオープンと、を含む。
図2に示されるように、予めトレーニングされたDNNモデルに基づいてユーザの基本情報を決定するステップはS21、S22を含む。
S21:前記音声命令から音声特徴パラメータを抽出する。
ユーザが入力した音声命令から若干の音声特徴パラメータを抽出することができる。前記音声特徴パラメータは、ゼロ交差率、短時間エネルギー、ケプストラム係数、基本周波数のうちの少なくとも1つを含む。前記音声命令から抽出した音声特徴パラメータは前記音声命令の特徴として前記DNNモデルに入力されることができる。
S22:前記音声特徴パラメータ、位置及び時間を前記DNNの入力パラメータとして、前記DNNの出力パラメータに基づいてユーザの基本情報を決定する。
前記DNNはDNN理論に基づいて予めトレーニングして得られ、ユーザの基本情報を判断するためのモデルである。前記基本情報は、ユーザの性別、年齢、出身地及び職業を含む。
前記DNNは入力層、隠れ層及び出力層からなる。前記入力層は入力パラメータを受信することに用いられ、前記出力層は計算結果を出力することに用いられ、前記隠れ層は前記入力パラメータの値に基づいて、前記計算結果を求めることに用いられる。
前記入力パラメータは、音声特徴パラメータ、音声命令を入力する時にユーザが位置する位置及び前記音声命令の入力時間を含む。前記入力パラメータを前記DNNに入力した後に、前記入力層、隠れ層及び出力層の計算に基づいて、ユーザの基本情報に対する判断結果を得ることができる。
更に好ましくは、前記入力パラメータは、呼び出されたユーザID番号(Called user identification number、CUID)を含んでもよい。前記CUIDはユーザの性別、年齢等の基本情報を決定するのに非常に有用である。
本実施例は前記音声命令から音声特徴パラメータを抽出するとともに、前記音声特徴パラメータ、前記位置及び前記時間を前記DNNの入力パラメータとして、前記DNNの入力パラメータに基づいてユーザの基本情報を決定することによって、DNNによってユーザの基本情報を判断することを実現する。
第3実施例
本実施例は本発明の上記実施例を基礎として、更に前記車載音声命令の認識方法の技術案を提供する。当該技術案では、前記ユーザの基本情報に基づいて音声命令に対してコンテンツ認識を行い、認識したコンテンツ及びユーザが前記音声命令を入力したシーンページのコンテキストに基づいて少なくとも1つのユーザの可能な意図を決定するステップは、ユーザが前記音声命令を入力する前に所定の長さの期間に表示したページを取得し、前記所定の長さの期間に表示したページ、各ページに留まる時間及び前記音声命令における重要な認識コーパスに基づいてユーザの可能な意図を判断するステップを含む。
図3に示されるように、前記車載音声命令の認識方法はS31〜S36を含む。
S31:ユーザが入力した音声命令を取得する。
S32:予めトレーニングされたディープニューラルネットワークDNNモデルに基づいてユーザの基本情報を決定する。
S33:ユーザが前記音声命令を入力する前に所定の長さの期間に表示したページを取得し、前記所定の長さの期間に表示したページ、各ページに留まる時間及び前記音声命令における重要な認識コーパスに基づいてユーザの可能な意図を判断する。
セーション(Session)対象を設定し、前記ユーザが前記音声命令を入力する前に所定の長さの期間内に表示したページ、及びユーザが前記表示したページに留まる時間をSession対象に記憶することができる。ユーザの可能な意図を判断する必要がある時に、前記Session対象からユーザが前記音声命令を入力する前に所定の長さの期間内に表示したページ、ユーザが各ページに留まる時間を取得し、前記音声命令に対する認識コーパスと組み合わせて、ユーザの可能な意図を総合的に判断する。
例えば、経験に基づいて、3分間である所定の長さの期間内に表示したページが地図ナビゲーションページであり、ユーザが地図ナビゲーションページにおいて留まる時間が3分間であり、且つ前記認識コーパスにキーワード「ナビゲーション」が含まれる場合、ユーザの実際の意図はナビゲーションルートを改めて設定することの可能性が高く、上記状況が発生する場合、ナビゲーションルートの再設定をユーザの可能な意図として判定することができる。
S34:前記DNNモデルに基づいてユーザの可能な意図の信頼度を決定する。
S35:前記信頼度に基づいて前記ユーザの可能な意図からユーザの真意を決定する。
S36:前記ユーザの真意に基づいて対応する動作を実行する。
本実施例はユーザの基本情報を決定した後に、ユーザが前記音声命令を入力する前に所定の長さの期間に表示したページを取得し、前記所定の長さの期間に表示したページ、各ページに留まる時間及び前記音声命令における重要な認識コーパスに基づいてユーザの可能な意図を判断することによって、ユーザの可能性のある意図に対する正確な判断を実現する。
第4実施例
本実施例は本発明の上記実施例を基礎として、更に前記車載音声命令の認識方法の技術案を提供する。当該技術案では、前記ユーザの基本情報に基づいて音声命令に対してコンテンツ認識を行い、認識したコンテンツ及びユーザが前記音声命令を入力したシーンページのコンテキストに基づいて少なくとも1つのユーザの可能な意図を決定するステップにおいては、ユーザが前記音声命令を入力する前に所定数の表示したページを取得し、前記所定数の表示したページ、各ページに留まる時間及び前記音声命令における重要な認識コーパスに基づいてユーザの可能な意図を判断するステップを含む。
図4に示されるように、前記車載音声命令の認識方法はS41〜S46を含む。
S41:ユーザが入力した音声命令を取得する。
S42:予めトレーニングされたディープニューラルネットワークDNNモデルに基づいてユーザの基本情報を決定する。
S43:ユーザが前記音声命令を入力する前に所定数の表示したページを取得し、前記所定数の表示したページ、各ページに留まる時間及び前記音声命令における重要な認識コーパスに基づいてユーザの可能な意図を判断する。
本発明の第3実施例と同じように、Session対象を設定し、前記音声命令を入力する前に所定数の表示したページ、及びユーザが前記表示したページにおいて留まる時間を前記Session対象に記憶することができる。ユーザの可能な意図を判断する必要がある時に、前記Session対象から前に記憶したページ及び留まる時間パラメータを取得し、前記音声命令の認識コーパスと組み合わせて、ユーザの可能な意図を総合的に判断する。
例として、音声命令を入力する前に表示した2つのページはそれぞれ音楽再生ページ及び地図ナビゲーションページである。ユーザが音楽再生ページ及び地図ナビゲーションページにおいて留まる時間はそれぞれ3分間及び2〜10分間であり、且つ前記認識コーパスにキーワード「ナビゲーション」が含まれる。経験に基づいて、この場合は、ユーザの実際の意図はナビゲーションルートを改めて設定することの可能性が高い。上記状況が発生する時に、ユーザの可能な意図を、ナビゲーションルートを改めて設定することとして判断することができる。
S44:前記DNNモデルに基づいてユーザの可能な意図の信頼度を決定する。
S45:前記信頼度に基づいて前記ユーザの可能な意図からユーザの真意を決定する。
S46:前記ユーザの真意に基づいて対応する動作を実行する。
本実施例はユーザの基本情報を決定した後に、ユーザが前記音声命令を入力する前に所定数の表示したページを取得し、前記所定数の表示したページ、各ページに留まる時間及び前記音声命令における重要な認識コーパスに基づいてユーザの可能な意図を判断することによって、ユーザの可能性のある意図に対する正確な判断を実現する。
第5実施例
本実施例は本発明の上記実施例を基礎として、更に前記車載音声命令の認識方法において信頼度を決定する技術案を提供する。当該技術案では、前記DNNモデルに基づいてユーザの可能な意図の信頼度を決定するステップにおいては、前記音声命令の音声特徴パラメータを入力パラメータとして、前記DNNモデルによってユーザが前記音声命令を入力した時の気分状態を評価するステップと、前記気分状態に基づいて前記ユーザの可能な意図の信頼度を取得するステップと、を含む。
図5に示されるように、前記DNNモデルに基づいてユーザの可能な意図の信頼度を決定するステップはS51、S52を含む。
S51:前記音声命令の音声特徴パラメータを入力パラメータとして、前記DNNモデルによってユーザが前記音声命令を入力した時の気分状態を評価する。
前記DNNモデルはユーザの基本情報を決定することに用いられるだけでなく、可能性のある意図の信頼度を決定する時に、さらにユーザが前記音声命令を入力した時の気分状態を評価することに用いられる。
具体的には、ユーザの可能性のある複数の気分状態を予め定義することができる。例えば、ユーザの気分状態は嬉しさ、悲しみ、怒り等を含んでもよい。ユーザの気分状態を決定した後に、前記DNNモデルの出力層に異なる気分状態に対応する出力ユニットを設定する。このように、前記DNNのトレーニングが完了した後に、前記DNNは気分状態の評価に用いられ得る。
S52:前記気分状態に基づいて前記ユーザの可能な意図の信頼度を取得する。
具体的には、経験に基づいてユーザの異なる気分状態に対応する信頼度の値を指定することができる。例えば、経験に基づいて、嬉しい気分状態である場合に前記信頼度の値を最高とし、悲しい気分状態である場合に前記信頼度の値を最低として指定する。
本実施例は前記音声命令の音声特徴パラメータを入力パラメータとして、前記DNNモデルによってユーザが前記音声命令を入力した時の気分状態を評価し、前記気分状態に基づいて前記可能性のある意図の信頼度を取得することによって、DNNモデルによってユーザが音声命令を入力した時の気分状態を評価し、更に前記気分状態に基づいてユーザの可能な意図の信頼度を決定する。
第6実施例
本実施例は本発明の上記実施例を基礎として、更に前記車載音声命令の認識方法において信頼度を決定する技術案を提供する。当該技術案では、前記信頼度に基づいて前記ユーザの可能な意図からユーザの真意を決定するステップにおいては、前記信頼度と前記ユーザの可能な意図に対応する信頼度区間とをマッチングするステップと、前記信頼度とのマッチング度が最も高い信頼度区間に対応するユーザの可能な意図をユーザの真意とするステップと、を含む。
図6に示されるように、前記信頼度に基づいて前記ユーザの可能な意図からユーザの真意を決定するステップはS61、S62を含む。
S61:前記信頼度と前記ユーザの可能な意図に対応する信頼度区間とをマッチングする。
異なる可能性のある意図は相応な信頼度区間に対応する。例えば、意図「ナビゲーションルートを改めて設定する」ことの可能性のある信頼度区間は0.45〜0.6である。各可能性のある意図に対応する信頼度区間を予め収集し、前記音声命令に対応する可能性のある意図及び前記可能性のある意図の信頼度を得た後に、前記信頼度と収集した各信頼度区間とをマッチングする。
更に好ましくは、可能性のある意図、すなわちユーザの可能な意図については、さらにそれに対応するパラメータが付いている場合もある。例えば、「再生モードを変える」である意図の付いている可能性があるパラメータは、循環再生、連続再生、ランダム再生等のターゲット再生モードを含む。この時、各付いているパラメータを1つの独立した案として、それに対応する信頼度区間を単独に収集し、前記信頼度を取得した後に、前記信頼度と単独に収集した信頼度区間とをマッチングすべきである。
S62:前記信頼度とのマッチング度が最も高い信頼度区間に対応するユーザの可能な意図をユーザの真意とする。
信頼度区間のマッチングが終了した後に、マッチング度が最も高い信頼度区間に対応する可能性のある意図をユーザの真意とする。
本実施例は前記信頼度と前記ユーザの可能な意図に対応する信頼度区間とをマッチングし、前記信頼度とのマッチング度が最も高い信頼度区間に対応するユーザの可能な意図をユーザの真意とすることによって、信頼度パラメータに基づいてユーザの真意を認識することを実現する。
第7実施例
本実施例は本発明の上記実施例を基礎として、更に前記車載音声命令の認識方法において意図を決定する技術案を提供する。当該技術案では、前記ユーザの真意に基づいて対応する動作を実行するステップにおいては、前記ユーザの真意の実行条件が成立する場合、前記ユーザの真意に対応する動作を実行するステップと、前記ユーザの真意の実行条件が成立しない場合、前記ユーザの真意に対応する動作の実行を終了させ、ユーザに知らせるステップと、前記ユーザの真意の実行条件が不確定である場合、前記ユーザの真意と類似した動作を実行するステップと、を含む。
図7に示されるように、前記ユーザの真意に基づいて対応する動作を実行するステップは、S71、S72、及びS73を含む。
S71:前記ユーザの真意の実行条件が成立する場合、前記ユーザの真意に対応する動作を実行する。
ユーザの真意を決定した後に、前記真意に対応する動作を実行するかどうかは、前記真意の実行条件が成立するかどうかにより決められる。例えば、真意が「ウィーチャットを見る」ことである場合、それに対応する実行条件は停車状態である。音声命令を受信し、真意「ウィーチャットを見る」ことを行う時に停車状態にあると認識する場合、前記真意に対応する動作を実行し、つまりウィーチャットを見る。
S72:前記ユーザの真意の実行条件が成立しない場合、前記ユーザの真意に対応する動作の実行を終了させ、ユーザに知らせる。
真意が「ウィーチャットを見る」ことを例として、音声命令を受信し、真意「ウィーチャットを見る」ことを行う時に走行状態にあると認識する場合、ウィーチャットを見る動作を実行せず、現在状態で当該動作を実行する危険性をユーザにメッセージで示す。
S73:前記ユーザの真意の実行条件が不確定である場合、前記ユーザの真意と類似した動作を実行する。
ユーザの気分状態が悪く、又はユーザの真意をはっきりと判断できない場合、ユーザの真意の実行条件を明確に認識できない可能性がある。この場合、前記ユーザの真意と類似した動作を実行すべきであるが、前記類似した動作が安全な動作であることを確保しなければならない。
本実施例は前記ユーザの真意の実行条件が成立する場合、前記ユーザの真意に対応する動作を実行し、前記ユーザの真意の実行条件が成立しない場合、前記ユーザの真意に対応する動作の実行を終了させ、前記ユーザの真意の実行条件が不確定である場合、前記ユーザの真意と類似した動作を実行することによって、実行条件の再確認により、実行する動作の安全性を確保する。
第8実施例
本実施例は前記車載音声命令の認識方法の技術案を提供する。当該技術案では、前記車載音声命令の認識方法は、ユーザの基本情報を判断するステップと、Session処理に基づいて、ユーザの可能な意図を取得するステップと、意図信頼度処理に基づいて、ユーザの異なる可能な意図の信頼度を取得するステップと、安全処理に基づいて、実行すべき動作を決定するステップと、統合判断結果に基づいて、対応した動作を実行するかどうかを決定するステップと、を含む。
図8に示されるように、前記車載音声命令の認識方法はS81〜S85を含む。
S81:ユーザの基本情報を判断する。
本実施例では、予めトレーニングされたDNNによってユーザの基本情報を認識する。前記基本情報はユーザの年齢、性別、出身地、職業等を含む。
S82:Session処理に基づいて、ユーザの可能な意図を取得する。
Session対象によって記憶した、ユーザが音声命令を送信する前に使用したページに基づいて、ユーザの可能な意図を取得する。
S83:意図信頼度処理に基づいて、ユーザの異なる可能な意図の信頼度を取得する。
本実施例では、同じように、予めトレーニングされたDNNに基づいて異なる可能性のある意図の信頼度を認識する。
S84:安全処理に基づいて、実行すべき動作を決定する。
自動車の現在状態を認識することにより実行しようとする動作が安全な動作であるかどうかを決定することによって、実行すべき動作を更に決定する。
S85:総合的な判断結果に基づいて、対応した動作を実行するかどうかを決定する。
前の複数のステップの結果を総合的に判断することによって、対応した動作を実行するかどうかを決定する。
本実施例はユーザの基本情報を判断し、Session処理に基づいて、ユーザの可能な意図を取得し、意図信頼度処理に基づいて、ユーザの異なる可能な意図の信頼度を取得し、安全処理に基づいて、実行すべき動作を決定し、統合判断結果に基づいて、対応した動作を実行するかどうかを決定することによって、音声命令の取得から、対応した動作の実行までの全過程を完了する。
第9実施例
本実施例は車載音声命令の認識装置の技術案を提供する。当該技術案では、前記車載音声実行認識装置は、命令取得モジュール91、基本情報決定モジュール92、意図認識モジュール93、信頼度決定モジュール94、意図決定モジュール95及び動作実行モジュール96を備える。
前記命令取得モジュール91はユーザが入力した音声命令を取得することに用いられる。
前記基本情報決定モジュール92は予めトレーニングされたディープニューラルネットワークDNNモデルに基づいてユーザの基本情報を決定することに用いられる。
前記意図認識モジュール93は前記ユーザの基本情報に基づいて音声命令に対してコンテンツ認識を行い、認識したコンテンツ及びユーザが前記音声命令を入力したシーンページのコンテキストに基づいて少なくとも1つのユーザの可能な意図を決定することに用いられる。
前記信頼度決定モジュール94は前記DNNモデルに基づいてユーザの可能な意図の信頼度を決定することに用いられる。
前記意図決定モジュール95は前記信頼度に基づいて前記ユーザの可能な意図からユーザの真意を決定することに用いられる。
前記動作実行モジュール96は前記ユーザの真意に基づいて対応する動作を実行することに用いられる。
更に、前記基本情報決定モジュール92は、特徴抽出ユニット及びDNN認識ユニットを備える。
前記特徴抽出ユニットは前記音声命令からゼロ交差率、短時間エネルギー、ケプストラム係数及び基本周波数のうちの少なくとも1項を含む音声特徴パラメータを抽出することに用いられる。
前記DNN認識ユニットは前記音声特徴パラメータ、前記位置及び前記時間を前記DNNの入力パラメータとして、前記DNNの出力パラメータに基づいてユーザの性別、年齢、出身地及び職業のうちの少なくとも1項を含むユーザの基本情報を決定することに用いられる。
更に、前記意図認識モジュール93は、第1意図認識ユニット又は第2意図認識ユニットを備える。
前記第1意図認識ユニットはユーザが前記音声命令を入力する前に所定の長さの期間に表示したページを取得し、前記所定の長さの期間に表示したページ、各ページに留まる時間及び前記音声命令における重要な認識コーパスに基づいてユーザの可能な意図を判断することに用いられる。
前記第2意図認識ユニットはユーザが前記音声命令を入力する前に所定数の表示したページを取得し、前記所定数の表示したページ、各ページに留まる時間及び前記音声命令における重要な認識コーパスに基づいてユーザの可能な意図を判断することに用いられる。
更に、前記信頼度決定モジュール94は、気分評価ユニット及び信頼度取得ユニットを備える。
前記気分評価ユニットは前記音声命令の音声特徴パラメータを入力パラメータとして、前記DNNモデルによってユーザが前記音声命令を入力した時の気分状態を評価することに用いられる。
前記信頼度取得ユニットは前記気分状態に基づいて前記ユーザの可能な意図の信頼度を取得することに用いられる。
更に、前記意図決定モジュール95は、マッチングユニット及び真意取得ユニットを備える。
前記マッチングユニットは前記信頼度と前記ユーザの可能な意図に対応する信頼度区間とをマッチングすることに用いられる。
前記真意取得ユニットは前記信頼度とのマッチング度が最も高い信頼度区間に対応するユーザの可能な意図をユーザの真意とすることに用いられる。
更に、前記動作実行モジュール96は、第1動作実行ユニット、第2動作実行ユニット及び第3動作実行ユニットを備える。
前記第1動作実行ユニットは前記ユーザの真意の実行条件が成立する場合、前記ユーザの真意に対応する動作を実行することに用いられる。
前記第2動作実行ユニットは前記ユーザの真意の実行条件が成立しない場合、前記ユーザの真意に対応する動作の実行を終了させ、ユーザにプ知らせることに用いられる。
前記第3動作実行ユニットは前記ユーザの真意の実行条件が不確定である場合、前記ユーザの真意と類似した動作を実行することに用いられる。
上記車載音声命令の認識装置は本発明の任意の実施例に係る車載音声命令の認識方法を実行でき、方法の実行に対応した機能モジュールと有益な効果を有する。
当業者であれば、上記本発明の各モジュール又は各ステップは汎用の計算機器で実現されてもよく、それらは単一の計算機器に集積されてもよく、又は複数の計算機器で構成されるネットワークに分布されてもよい。任意選択で、それらはコンピュータ装置実行可能なプログラムコードで実現されてもよいため、それらを記憶装置に記憶して計算機器で実行してもよく、又はそれらをそれぞれ各集積回路モジュールとして製造してもよく、又はそのうちの複数のモジュール又はステップを単一の集積回路モジュールとして製造して実現してもよいことを理解すべきである。このように、本発明は特定のハードウェアとソフトウェアの組み合わせに制限されない。
第10実施例
コンピュータプロセッサで実行されると車載音声命令の認識方法を実行するためのコンピュータ実行可能命令を含む1つ又は複数の記憶媒体であって、前記方法は、
ユーザが入力した音声命令を取得するステップと、
予めトレーニングされたディープニューラルネットワークDNNモデルに基づいてユーザの基本情報を決定するステップと、
前記ユーザの基本情報に基づいて音声命令に対してコンテンツ認識を行い、認識したコンテンツ及びユーザが前記音声命令を入力したシーンページのコンテキストに基づいて少なくとも1つのユーザの可能な意図を決定するステップと、
前記DNNモデルに基づいてユーザの可能な意図の信頼度を決定するステップと、
前記信頼度に基づいて前記ユーザの可能な意図からユーザの真意を決定するステップと、
前記ユーザの真意に基づいて対応する動作を実行するステップとを、含むことを特徴とする1つ又は複数のコンピュータ実行可能命令を含む記憶媒体。
上記記憶媒体が前記方法を実行する時に、予めトレーニングされたディープニューラルネットワークDNNモデルに基づいてユーザの基本情報を決定するステップにおいては、
前記音声命令からゼロ交差率、短時間エネルギー、ケプストラム係数及び基本周波数のうちの少なくとも1項を含む音声特徴パラメータを抽出するステップと、
前記音声特徴パラメータ、位置及び時間を前記DNNの入力パラメータとして、前記DNNの出力パラメータに基づいてユーザの性別、年齢、出身地及び職業のうちの少なくとも1項を含むユーザの基本情報を決定するステップとを含む。
上記記憶媒体が前記方法を実行する時に、前記ユーザの基本情報に基づいて音声命令に対してコンテンツ認識を行い、認識したコンテンツ及びユーザが前記音声命令を入力したシーンページのコンテキストに基づいて少なくとも1つのユーザの可能な意図を決定するステップにおいては、
ユーザが前記音声命令を入力する前に所定の長さの期間に表示したページを取得し、前記所定の長さの期間に表示したページ、各ページに留まる時間及び前記音声命令における重要な認識コーパスに基づいてユーザの可能な意図を判断するステップ、又は
ユーザが前記音声命令を入力する前に所定数の表示したページを取得し、前記所定数の表示したページ、各ページに留まる時間及び前記音声命令における重要な認識コーパスに基づいてユーザの可能な意図を判断するステップを含む。
上記記憶媒体が前記方法を実行する時に、前記DNNモデルに基づいてユーザの可能な意図の信頼度を決定するステップにおいては、
前記音声命令の音声特徴パラメータを入力パラメータとして、前記DNNモデルによってユーザが前記音声命令を入力した時の気分状態を評価するステップと、
前記気分状態に基づいて前記ユーザの可能な意図の信頼度を取得するステップと、を含む。
上記記憶媒体が前記方法を実行する時に、前記信頼度に基づいて前記ユーザの可能な意図からユーザの真意を決定するステップにおいては、
前記信頼度と前記ユーザの可能な意図に対応する信頼度区間とをマッチングするステップと、
前記信頼度とのマッチング度が最も高い信頼度区間に対応するユーザの可能な意図をユーザの真意とするステップと、を含む。
上記記憶媒体が前記方法を実行する時に、前記ユーザの真意に基づいて対応する動作を実行するステップにおいては、
前記ユーザの真意の実行条件が成立する場合、前記ユーザの真意に対応する動作を実行するステップと、
前記ユーザの真意の実行条件が成立しない場合、前記ユーザの真意に対応する動作の実行を終了させ、ユーザに知らせるステップと、
前記ユーザの真意の実行条件が不確定である場合、前記ユーザの真意と類似した動作を実行するステップと、を含む。
上記実施形態の説明によれば、当業者は、本発明がソフトウェア、および必要な汎用ハードウェアにより実現されてもよく、勿論ハードウェアにより実現されてもよいが、多くの場合、前者が好ましい実施形態であると理解すべきである。このような理解に基づいて、本発明の技術案は、実質的な部分、または従来技術を改良する部分をソフトウェア製品の形態で実現してもよい。当該コンピュータソフトウェア製品は、コンピュータ可読記憶媒体、例えばコンピュータのフロッピーディスク、光ディスク、読み出し専用メモリ(Read−Only Memor、ROM)、ランダムアクセスメモリ(Random Access Memory、RAM)などに記憶されてもよく、且つコンピュータ機器(パソコン、サーバ、またはネットワーク機器などであってもよく)に本発明の各実施例に係る方法を実行させる複数の命令を含む。
注意すべきのは、上記車載音声命令の認識装置の実施例中に含まれる各モジュールとサブモジュールが、機能ロジックのみに応じて区画されるが、上記区画に限定されない。対応する機能を実現することができればよい。また、各機能ユニットの具体的な名称は、単に区別を容易にするためのものであり、本発明の保護範囲を限定するものではない。
以上で説明したのは、本発明の具体的な実施形態だけであり、本発明の保護範囲は、これらに限定されるものではない。いかなる当業者が本発明に開示された技術範囲内に容易に想到できる変更または置換の全ては、本発明の保護範囲内に入るべきである。従って、本発明の保護範囲は、添付される特許請求の範囲を基準としているものである。
本発明における各実施例のいずれも漸進的な方式によって説明されており、各実施例において主に記述された内容が他の実施例との差異であり、各実施例の間の同じまたは類似する部分が互いに参照すればよい。
以上で説明したのは、本発明の具体的な実施形態だけであり、本発明の保護範囲は、これらに限定されるものではない。いかなる当業者が本発明に開示された技術範囲内に容易に想到できる変更または置換の全ては、本発明の保護範囲内に入るべきである。従って、本発明の保護範囲は、添付される特許請求の範囲を基準としているものである。

Claims (13)

  1. ユーザが入力した音声命令を取得するステップと、
    予めトレーニングされたディープニューラルネットワークDNNモデルに基づいてユーザの基本情報を決定するステップと、
    前記ユーザの基本情報に基づいて音声命令に対してコンテンツ認識を行い、認識したコンテンツ及びユーザが前記音声命令を入力した場面で表示されたページのコンテキストに基づいて少なくとも1つのユーザの可能な意図を決定するステップと、
    前記DNNモデルに基づいてユーザの可能な意図の信頼度を決定するステップと、
    前記信頼度に基づいて前記ユーザの可能な意図からユーザの真意を決定するステップと、
    前記ユーザの真意に基づいて対応する動作を実行するステップと、を含む
    ことを特徴とする車載音声命令の認識方法。
  2. 予めトレーニングされたディープニューラルネットワークDNNモデルに基づいてユーザの基本情報を決定するステップにおいては、
    前記音声命令からゼロ交差率、短時間エネルギー、ケプストラム係数及び基本周波数のうちの少なくとも1項を含む音声特徴パラメータを抽出するステップと、
    前記音声特徴パラメータ、位置及び時間を前記DNNモデルの入力パラメータとして、前記DNNモデルの出力パラメータに基づいてユーザの性別、年齢、出身地及び職業のうちの少なくとも1項を含むユーザの基本情報を決定するステップと、を含む
    ことを特徴とする請求項1に記載の方法。
  3. 前記ユーザの基本情報に基づいて音声命令に対してコンテンツ認識を行い、認識したコンテンツ及びユーザが前記音声命令を入力した場面で表示されたページのコンテキストに基づいて少なくとも1つのユーザの可能な意図を決定するステップにおいては、
    ユーザが前記音声命令を入力する前に所定の長さの期間に表示したページを取得し、前記所定の長さの期間に表示したページ、各ページに留まる時間及び前記音声命令における重要な認識コーパスに基づいてユーザの可能な意図を判断するステップ、又は
    ユーザが前記音声命令を入力する前に所定数の表示したページを取得し、前記所定数の表示したページ、各ページに留まる時間及び前記音声命令における重要な認識コーパスに基づいてユーザの可能な意図を判断するステップを含む
    ことを特徴とする請求項1に記載の方法
  4. 前記DNNモデルに基づいてユーザの可能な意図の信頼度を決定するステップにおいては、
    前記音声命令の音声特徴パラメータを入力パラメータとして、前記DNNモデルによってユーザが前記音声命令を入力した時の気分状態を評価するステップと、
    前記気分状態に基づいて前記ユーザの可能な意図の信頼度を取得するステップと、を含む
    ことを特徴とする請求項1に記載の方法。
  5. 前記信頼度に基づいて前記ユーザの可能な意図からユーザの真意を決定するステップにおいては、
    前記信頼度と前記ユーザの可能な意図に対応する信頼度区間とをマッチングするステップと、
    前記信頼度とのマッチング度が最も高い信頼度区間に対応するユーザの可能な意図をユーザの真意とするステップと、を含む
    ことを特徴とする請求項1に記載の方法。
  6. 前記ユーザの真意に基づいて対応する動作を実行するステップにおいては、
    前記ユーザの真意の実行条件が成立する場合、前記ユーザの真意に対応する動作を実行するステップと、
    前記ユーザの真意の実行条件が成立しない場合、前記ユーザの真意に対応する動作の実行を終了させ、ユーザに知らせるステップと、
    前記ユーザの真意の実行条件が不確定である場合、前記ユーザの真意と類似した動作を実行するステップと、を含む
    ことを特徴とする請求項1に記載の方法。
  7. ユーザが入力した音声命令を取得するための命令取得モジュールと、
    予めトレーニングされたディープニューラルネットワークDNNモデルに基づいてユーザの基本情報を決定するための基本情報決定モジュールと、
    前記ユーザの基本情報に基づいて音声命令に対してコンテンツ認識を行い、認識したコンテンツ及びユーザが前記音声命令を入力した場面で表示されたページのコンテキストに基づいて少なくとも1つのユーザの可能な意図を決定するための意図認識モジュールと、
    前記DNNモデルに基づいてユーザの可能な意図の信頼度を決定するための信頼度決定モジュールと、
    前記信頼度に基づいて前記ユーザの可能な意図からユーザの真意を決定するための意図決定モジュールと、
    前記ユーザの真意に基づいて対応する動作を実行するための動作実行モジュールと、を備える
    ことを特徴とする車載音声命令の認識装置。
  8. 前記基本情報決定モジュールは、
    前記音声命令からゼロ交差率、短時間エネルギー、ケプストラム係数及び基本周波数のうちの少なくとも1項を含む音声特徴パラメータを抽出するための特徴抽出ユニットと、
    前記音声特徴パラメータ、位置及び時間を前記DNNモデルの入力パラメータとして、前記DNNモデルの出力パラメータに基づいてユーザの性別、年齢、出身地及び職業のうちの少なくとも1項を含むユーザの基本情報を決定するためのDNN認識ユニットと、を備える
    ことを特徴とする請求項7に記載の装置。
  9. 前記意図認識モジュールは、
    ユーザが前記音声命令を入力する前に所定の長さの期間に表示したページを取得し、前記所定の長さの期間に表示したページ、各ページに留まる時間及び前記音声命令における重要な認識コーパスに基づいてユーザの可能な意図を判断するための第1意図認識ユニット、又は
    ユーザが前記音声命令を入力する前に所定数の表示したページを取得し、前記所定数の表示したページ、各ページに留まる時間及び前記音声命令における重要な認識コーパスに基づいてユーザの可能な意図を判断する第2意図認識ユニットを備える
    ことを特徴とする請求項7に記載の装置。
  10. 前記信頼度決定モジュールは、
    前記音声命令の音声特徴パラメータを入力パラメータとして、前記DNNモデルによってユーザが前記音声命令を入力した時の気分状態を評価するための気分評価ユニットと、
    前記気分状態に基づいて前記ユーザの可能な意図の信頼度を取得するための信頼度取得ユニットとを備えることを特徴とする請求項7に記載の装置。
  11. 前記意図決定モジュールは、
    前記信頼度と前記ユーザの可能な意図に対応する信頼度区間とをマッチングするためのマッチングユニットと、
    前記信頼度とのマッチング度が最も高い信頼度区間に対応するユーザの可能な意図をユーザの真意とするための真意取得ユニットと、を備える
    ことを特徴とする請求項7に記載の装置。
  12. 前記動作実行モジュールは、
    前記ユーザの真意の実行条件が成立する場合、前記ユーザの真意に対応する動作を実行するための第1動作実行ユニットと、
    前記ユーザの真意の実行条件が成立しない場合、前記ユーザの真意に対応する動作の実行を終了させ、ユーザに知らせるための第2動作実行ユニット、
    前記ユーザの真意の実行条件が不確定である場合、前記ユーザの真意と類似した動作を実行するための第3動作実行ユニットと、を備える
    ことを特徴とする請求項7に記載の装置。
  13. コンピュータプロセッサによって実行されると車載音声命令の認識方法を実行するための1つ又は複数のコンピュータ実行可能命令を含む記憶媒体であって、前記方法は、
    ユーザが入力した音声命令を取得するステップと、
    予めトレーニングされたディープニューラルネットワークDNNモデルに基づいてユーザの基本情報を決定するステップと、
    前記ユーザの基本情報に基づいて音声命令に対してコンテンツ認識を行い、認識したコンテンツ及びユーザが前記音声命令を入力した場面で表示されたページのコンテキストに基づいて少なくとも1つのユーザの可能な意図を決定するステップと、
    前記DNNモデルに基づいてユーザの可能な意図の信頼度を決定するステップと、
    前記信頼度に基づいて前記ユーザの可能な意図からユーザの真意を決定するステップと、
    前記ユーザの真意に基づいて対応する動作を実行するステップと、を含む
    ことを特徴とする1つ又は複数のコンピュータ実行可能命令を含む記憶媒体。
JP2017530131A 2015-07-02 2015-11-23 車載音声命令の認識方法、装置及び記憶媒体 Active JP6458149B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201510382215.9 2015-07-02
CN201510382215.9A CN105070288B (zh) 2015-07-02 2015-07-02 车载语音指令识别方法和装置
PCT/CN2015/095269 WO2017000489A1 (zh) 2015-07-02 2015-11-23 车载语音指令识别方法、装置和存储介质

Publications (2)

Publication Number Publication Date
JP2018503857A JP2018503857A (ja) 2018-02-08
JP6458149B2 true JP6458149B2 (ja) 2019-01-23

Family

ID=54499641

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017530131A Active JP6458149B2 (ja) 2015-07-02 2015-11-23 車載音声命令の認識方法、装置及び記憶媒体

Country Status (6)

Country Link
US (1) US10446150B2 (ja)
EP (1) EP3319081A4 (ja)
JP (1) JP6458149B2 (ja)
KR (1) KR101955958B1 (ja)
CN (1) CN105070288B (ja)
WO (1) WO2017000489A1 (ja)

Families Citing this family (52)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105070288B (zh) 2015-07-02 2018-08-07 百度在线网络技术(北京)有限公司 车载语音指令识别方法和装置
CN105376416A (zh) * 2015-12-04 2016-03-02 广东小天才科技有限公司 一种通话终端的控制方法和装置
CN106910513A (zh) * 2015-12-22 2017-06-30 微软技术许可有限责任公司 情绪智能聊天引擎
CN105529030B (zh) * 2015-12-29 2020-03-03 百度在线网络技术(北京)有限公司 语音识别处理方法和装置
CN106940998B (zh) * 2015-12-31 2021-04-16 阿里巴巴集团控股有限公司 一种设定操作的执行方法及装置
CN105931642B (zh) * 2016-05-31 2020-11-10 北京京东尚科信息技术有限公司 语音识别方法、设备及系统
CN106228989A (zh) * 2016-08-05 2016-12-14 易晓阳 一种语音交互识别控制方法
CN106601231A (zh) * 2016-12-22 2017-04-26 深圳市元征科技股份有限公司 车辆控制方法和装置
US11100384B2 (en) 2017-02-14 2021-08-24 Microsoft Technology Licensing, Llc Intelligent device user interactions
US11010601B2 (en) 2017-02-14 2021-05-18 Microsoft Technology Licensing, Llc Intelligent assistant device communicating non-verbal cues
US10467510B2 (en) 2017-02-14 2019-11-05 Microsoft Technology Licensing, Llc Intelligent assistant
CN107424607B (zh) * 2017-07-04 2023-06-06 珠海格力电器股份有限公司 语音控制模式切换方法、装置及具有该装置的设备
CN107316643B (zh) * 2017-07-04 2021-08-17 科大讯飞股份有限公司 语音交互方法及装置
CN107464115A (zh) * 2017-07-20 2017-12-12 北京小米移动软件有限公司 个人特征信息验证方法及装置
CN107507621B (zh) * 2017-07-28 2021-06-22 维沃移动通信有限公司 一种噪声抑制方法及移动终端
CN107590123B (zh) * 2017-08-07 2022-07-05 大众问问(北京)信息科技有限公司 车载中地点上下文指代消解方法及装置
CN107945796B (zh) * 2017-11-13 2021-05-25 百度在线网络技术(北京)有限公司 语音识别方法、装置、设备及计算机可读介质
CN108564374A (zh) * 2018-04-12 2018-09-21 出门问问信息科技有限公司 支付认证方法、装置、设备及存储介质
CN108648752A (zh) * 2018-04-17 2018-10-12 重庆物奇科技有限公司 一种基于云处理的智能语音控制系统及其控制方法
CN110390938A (zh) * 2018-04-20 2019-10-29 比亚迪股份有限公司 基于声纹的语音处理方法、装置和终端设备
CN110019740B (zh) * 2018-05-23 2021-10-01 京东方科技集团股份有限公司 车载终端的交互方法、车载终端、服务器和存储介质
CN109263649B (zh) * 2018-08-21 2021-09-17 北京汽车股份有限公司 车辆及其自动驾驶模式下的物体识别方法和物体识别系统
CN110875038A (zh) * 2018-09-03 2020-03-10 蔚来汽车有限公司 意图行为关系的定义方法及意图转换为行为的执行方法
KR20200042627A (ko) 2018-10-16 2020-04-24 삼성전자주식회사 전자 장치 및 그 제어 방법
CN109618204B (zh) * 2018-12-12 2021-04-23 百度在线网络技术(北京)有限公司 多媒体资源播放方法和装置
CN111508482A (zh) * 2019-01-11 2020-08-07 阿里巴巴集团控股有限公司 语义理解及语音交互方法、装置、设备及存储介质
KR102041617B1 (ko) * 2019-03-07 2019-11-27 주식회사 다이얼로그디자인에이전시 인공 지능의 다양한 스타일의 응답 제공 방법 및 장치
CN109948537A (zh) * 2019-03-19 2019-06-28 苏州宏裕千智能设备科技有限公司 基于用户意图识别的车载设备操控方法及其系统
CN113460070B (zh) * 2019-03-21 2022-12-16 百度在线网络技术(北京)有限公司 车辆控制方法和装置
KR102017229B1 (ko) * 2019-04-15 2019-09-02 미디어젠(주) 발화 패턴의 무한성 개선을 위한 딥러닝 기반의 텍스트 문장 자동 생성시스템
CN110276072B (zh) * 2019-06-10 2021-07-23 湖北亿咖通科技有限公司 电子设备、存储介质及基于神经网络的语义意图识别方法
CN110400563A (zh) * 2019-07-18 2019-11-01 平安科技(深圳)有限公司 车载语音指令识别方法、装置、计算机设备及存储介质
US11568239B2 (en) * 2019-08-13 2023-01-31 Lg Electronics Inc. Artificial intelligence server and method for providing information to user
CN110534093A (zh) * 2019-08-26 2019-12-03 河北微幼趣教育科技有限公司 对幼儿语音识别的请假方法、服务器、客户端
CN110534098A (zh) * 2019-10-09 2019-12-03 国家电网有限公司客户服务中心 一种年龄增强的语音识别增强方法和装置
CN110648654A (zh) * 2019-10-09 2020-01-03 国家电网有限公司客户服务中心 一种引入语言向量的语音识别增强方法和装置
CN110853621B (zh) * 2019-10-09 2024-02-13 科大讯飞股份有限公司 语音顺滑方法、装置、电子设备及计算机存储介质
CN110795532A (zh) * 2019-10-18 2020-02-14 珠海格力电器股份有限公司 一种语音信息的处理方法、装置、智能终端以及存储介质
US11676586B2 (en) * 2019-12-10 2023-06-13 Rovi Guides, Inc. Systems and methods for providing voice command recommendations
CN111081225B (zh) * 2019-12-31 2022-04-01 思必驰科技股份有限公司 技能语音唤醒方法及装置
CN111261196A (zh) * 2020-01-17 2020-06-09 厦门快商通科技股份有限公司 一种年龄预估方法和装置以及设备
CN111210821A (zh) * 2020-02-07 2020-05-29 普强时代(珠海横琴)信息技术有限公司 一种基于互联网应用的智能语音识别系统
US11722324B2 (en) * 2020-03-11 2023-08-08 Pricewaterhousecoopers Llp Secure and accountable execution of robotic process automation
CN111737544A (zh) * 2020-05-13 2020-10-02 北京三快在线科技有限公司 搜索意图识别方法、装置、电子设备和存储介质
CN111767021A (zh) * 2020-06-28 2020-10-13 广州小鹏车联网科技有限公司 语音交互方法、车辆、服务器、系统和存储介质
KR102491119B1 (ko) * 2020-09-17 2023-01-25 주식회사 인텔로이드 차량용 음성 인식 장치, 이를 이용한 차량 문제상황 처리 방법 및 컴퓨터 프로그램
CN112489639A (zh) * 2020-11-26 2021-03-12 北京百度网讯科技有限公司 音频信号处理方法及装置、系统、电子设备、可读介质
CN112466280B (zh) * 2020-12-01 2021-12-24 北京百度网讯科技有限公司 语音交互方法、装置、电子设备和可读存储介质
DE102021129535A1 (de) * 2021-11-12 2023-05-17 Ford Global Technologies, Llc System und Verfahren zum Steuern von autonom steuerbaren Fahrzeugfunktionen eines mit Partnersubjekten kooperierenden autonomen Fahrzeugs, Computerprogrammprodukt, computerlesbarer Datenträger und Fahrzeug
CN114120972B (zh) * 2022-01-28 2022-04-12 科大讯飞华南有限公司 一种基于场景化的语音智能识别方法及系统
CN115056746A (zh) * 2022-06-10 2022-09-16 浙江吉利控股集团有限公司 应用于车辆的用户意图识别方法、装置、设备
CN115294976A (zh) * 2022-06-23 2022-11-04 中国第一汽车股份有限公司 一种基于车载语音场景的纠错交互方法、系统及其车辆

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05157311A (ja) * 1991-12-03 1993-06-22 Matsushita Electric Ind Co Ltd 空調制御装置
KR100775006B1 (ko) * 2005-11-30 2007-11-08 한국정보통신대학교 산학협력단 상황인지 기반의 이동 서비스를 제공하는 단말 장치 및 그방법과, 그 단말 장치와 협력하여 옥내 이동 서비스를제공하는 서버 시스템
KR100764174B1 (ko) * 2006-03-03 2007-10-08 삼성전자주식회사 음성 대화 서비스 장치 및 방법
JP4427530B2 (ja) * 2006-09-21 2010-03-10 株式会社東芝 音声認識装置、プログラムおよび音声認識方法
WO2011059997A1 (en) * 2009-11-10 2011-05-19 Voicebox Technologies, Inc. System and method for providing a natural language content dedication service
US8972253B2 (en) * 2010-09-15 2015-03-03 Microsoft Technology Licensing, Llc Deep belief network for large vocabulary continuous speech recognition
US9190057B2 (en) * 2012-12-12 2015-11-17 Amazon Technologies, Inc. Speech model retrieval in distributed speech recognition systems
CN103024530A (zh) * 2012-12-18 2013-04-03 天津三星电子有限公司 智能电视语音应答系统及方法
JP2016508271A (ja) * 2013-01-04 2016-03-17 コピン コーポレーション 制御可能なヘッドセットコンピュータディスプレイ
DE212014000045U1 (de) * 2013-02-07 2015-09-24 Apple Inc. Sprach-Trigger für einen digitalen Assistenten
US9177550B2 (en) * 2013-03-06 2015-11-03 Microsoft Technology Licensing, Llc Conservatively adapting a deep neural network in a recognition system
US9666188B2 (en) * 2013-10-29 2017-05-30 Nuance Communications, Inc. System and method of performing automatic speech recognition using local private data
DE112014005354T5 (de) * 2013-11-25 2016-08-04 Mitsubishi Electric Corporation Dialog-management-system und dialog-management-verfahren
CN104751842B (zh) * 2013-12-31 2019-11-15 科大讯飞股份有限公司 深度神经网络的优化方法及系统
CN104021373B (zh) * 2014-05-27 2017-02-15 江苏大学 一种半监督语音特征可变因素分解方法
US9338493B2 (en) * 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
CN105070288B (zh) 2015-07-02 2018-08-07 百度在线网络技术(北京)有限公司 车载语音指令识别方法和装置
EP3335133A4 (en) * 2015-10-27 2018-07-04 Beijing Didi Infinity Technology and Development Co., Ltd. Systems and methods for delivering a message
US20170357521A1 (en) * 2016-06-13 2017-12-14 Microsoft Technology Licensing, Llc Virtual keyboard with intent-based, dynamically generated task icons
US20180046470A1 (en) * 2016-08-11 2018-02-15 Google Inc. Methods, systems, and media for presenting a user interface customized for a predicted user activity
US10176808B1 (en) * 2017-06-20 2019-01-08 Microsoft Technology Licensing, Llc Utilizing spoken cues to influence response rendering for virtual assistants

Also Published As

Publication number Publication date
KR20170078788A (ko) 2017-07-07
WO2017000489A1 (zh) 2017-01-05
CN105070288A (zh) 2015-11-18
EP3319081A4 (en) 2018-07-04
KR101955958B1 (ko) 2019-03-08
JP2018503857A (ja) 2018-02-08
EP3319081A1 (en) 2018-05-09
US10446150B2 (en) 2019-10-15
US20180190283A1 (en) 2018-07-05
CN105070288B (zh) 2018-08-07

Similar Documents

Publication Publication Date Title
JP6458149B2 (ja) 車載音声命令の認識方法、装置及び記憶媒体
CN108255934B (zh) 一种语音控制方法及装置
CN109920410B (zh) 用于基于车辆的环境确定推荐的可靠性的装置和方法
CN111191450B (zh) 语料清洗方法、语料录入设备及计算机可读存储介质
CN111081280B (zh) 与文本无关的语音情感识别方法及装置、用于识别情感的算法模型的生成方法
CN111312218B (zh) 神经网络的训练和语音端点检测方法及装置
EP4125029A1 (en) Electronic apparatus, controlling method of thereof and non-transitory computer readable recording medium
CN112468659B (zh) 应用于电话客服的质量评价方法、装置、设备及存储介质
CN111341318B (zh) 说话者角色确定方法、装置、设备及存储介质
CN112581938B (zh) 基于人工智能的语音断点检测方法、装置和设备
CN113327620A (zh) 声纹识别的方法和装置
CN112579760A (zh) 人机对话方法、装置、计算机设备及可读存储介质
CN115394318A (zh) 一种音频检测方法和装置
CN114548119A (zh) 测试集的生成方法、测试方法、装置、设备及介质
CN113821620A (zh) 多轮对话任务处理方法、装置及电子设备
CN113724693B (zh) 语音判别方法、装置、电子设备及存储介质
CN115883878A (zh) 视频剪辑方法、装置、电子设备及存储介质
CN115457951A (zh) 一种语音控制方法、装置、电子设备以及存储介质
CN113836273A (zh) 基于复杂语境的法律咨询方法及相关设备
CN111081256A (zh) 数字串声纹密码验证方法及系统
CN113779300A (zh) 语音输入引导方法、装置和车机
CN115934920B (zh) 针对人机对话的模型训练方法及相关装置
CN117034952A (zh) 语义理解方法、电子设备和存储介质
CN115083441A (zh) 转向灯音频的识别方法、装置、设备及存储介质
CN112464830A (zh) 驾驶员分心检测方法和装置

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180525

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180529

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180829

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20181214

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20181221

R150 Certificate of patent or registration of utility model

Ref document number: 6458149

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250