JP2023506087A - スキルの音声ウェイクアップ方法および装置 - Google Patents

スキルの音声ウェイクアップ方法および装置 Download PDF

Info

Publication number
JP2023506087A
JP2023506087A JP2022540758A JP2022540758A JP2023506087A JP 2023506087 A JP2023506087 A JP 2023506087A JP 2022540758 A JP2022540758 A JP 2022540758A JP 2022540758 A JP2022540758 A JP 2022540758A JP 2023506087 A JP2023506087 A JP 2023506087A
Authority
JP
Japan
Prior art keywords
wake
business
skill
task
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2022540758A
Other languages
English (en)
Other versions
JP7436077B2 (ja
Inventor
成亜 朱
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
AI Speech Ltd
Original Assignee
AI Speech Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by AI Speech Ltd filed Critical AI Speech Ltd
Publication of JP2023506087A publication Critical patent/JP2023506087A/ja
Application granted granted Critical
Publication of JP7436077B2 publication Critical patent/JP7436077B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

Figure 2023506087000001
本発明は、電子デバイスで適用されているスキルの音声ウェイクアップ方法および装置を開示し、前記スキルの音声ウェイクアップ方法は、処理する音声要求メッセージに対応するウェイクアップテキスト情報を識別するステップと、業務スキルセマンティックモデルを呼び出して前記ウェイクアップテキスト情報に対応する目標業務分野および対応する第1信頼度を決定し、知識スキルセマンティックモデルを呼び出してウェイクアップテキスト情報に対応する知識応答回答および対応する第2信頼度を決定するステップと、第1信頼度および第2信頼度に基づいて、ウェイクアップ知識スキルと目標業務分野に対応する目標業務スキルの1つを選択するステップと、を含む。これにより、音声メッセージに基づいてスキルを誤ってウェイクアップしてしまう確率を低減することができる。
【選択図】図1

Description

本発明は、インターネットの技術分野に属し、特にスキルの音声ウェイクアップ方法および装置に関する。
音声技術や人工知能技術の継続的な発展により、音声ウェイクアップ技術は、スマートホームなどのスマートデバイスの分野で大きな発展を遂げた。
現在、スマートデバイスには、知識スキルや業務スキルが存在する。知識スキルは、スマートデバイスのユーザーに、個々のユーザーの質問に対する回答を提供する機能など、対応する知識ベースの質問と回答のサービスを提供するために使用される。業務スキルは、音楽サービス、タクシーサービス、天気予報サービスなど、スマートデバイスのユーザーに業務サービスを提供するために使用される。
しかし、一般的なスマートデバイスでは、ユーザーの音声を識別する際、その音声が業務スキルを呼び出そうとしているのか、知識スキルを呼び出そうとしているのかを識別できず、誤ったスキルを呼び出してしまうことがある。例えば、スマートスピーカーがユーザーの音声メッセージ「Li Chenのお母さんは誰」を受信し、音楽スキルをウェイクアップさせると、歌手「Li Chen」の楽曲「Who is mother」が再生されてしまう。また、知識スキルをウェイクアップさせると、「Li Chenの母親は○○○です」という回答が再生されてしまう。
上記の問題に対して、業界内には良い解決策がまだない。
本発明の実施例は、少なくとも上記の技術的問題の1つを解決するためのスキルの音声ウェイクアップ方法および装置を提供する。
第1側面によれば、本発明の実施例は電子デバイスに適用されているスキルの音声ウェイクアップ方法を提供し、前記方法は、処理する音声要求メッセージに対応するウェイクアップテキスト情報を識別するステップと、業務スキルセマンティックモデルを呼び出して前記ウェイクアップテキスト情報に対応する目標業務分野および対応する第1信頼度を決定し、知識スキルセマンティックモデルを呼び出してウェイクアップテキスト情報に対応する知識応答回答および対応する第2信頼度を決定するステップと、第1信頼度および第2信頼度に基づいて、ウェイクアップ知識スキルと目標業務分野に対応する目標業務スキルの1つを選択するステップとを含む。
第2側面によれば、本発明の実施例は、電子デバイスに適用されているスキル音声ウェイクアップ装置を提供し、この装置は、処理する音声要求メッセージに対応するウェイクアップテキスト情報を識別するように構成された音声識別ユニットと、業務スキルセマンティックモデルを呼び出して前記ウェイクアップテキスト情報に対応する目標業務分野および対応する第1信頼度を決定し、知識スキルセマンティックモデルを呼び出して前記ウェイクアップテキスト情報に対応する知識応答回答および対応する第2信頼度を決定するように構成されたモデル呼び出しユニットと、前記第1信頼度および前記第2信頼度に基づいて、ウェイクアップ知識スキルおよび前記目標業務分野に対応する目標業務スキルの1つを選択するように構成されたスキルウェイクアップユニットと、を含む。
第3側面によれば、本発明の実施例は、電子デバイスを提供し、少なくとも1つのプロセッサ、および前記少なくとも1つのプロセッサに通信可能に接続されたメモリを含み、前記メモリに前記少なくとも1つのプロセッサによって実行され得る指令が記憶され、前記指令は前記少なくとも1つのプロセッサによって実行されると、前記少なくとも1つのプロセッサは上記の方法のステップを実施する。
第4側面によれば、本発明の実施例は、プロセッサによって実行されると上記の方法のステップが実施されるコンピュータープログラムが記憶された記憶媒体を提供する。
本発明の実施例は以下の有益な効果を有する。音声要求メッセージを受信すると、業務スキルセマンティックモデルと知識スキルセマンティックモデルを用いて、対応する業務分野と応答回答を並行して決定し、対応する信頼度を出力し、これにより、知識スキルまたは目標業務スキルへのウェイクアップを可能にすることである。その結果、業務スキルと知識キールスキルに対する音声メッセージのマッチングを比較し、音声メッセージに基づくスキルを誤ってウェイクアップさせる確率を低減させることができる。
本発明の実施例の技術的解決策をより明確に説明するために、以下、実施例の説明において必要な図面を簡単に説明する。説明された図面は本発明のいくつかの実施形態であり、当業者は、創造的な努力を払うことない下で、他の図面を得ることができる。
本発明の実施例によるスキルの音声ウェイクアップ方法の一例を示すフローチャートである。 本発明の実施例による業務スキルセマンティックモデルを呼び出して実行される操作例を示すフローチャートである。 本発明の実施例による業務関連度情報を決定する操作例を示すフローチャートである。 本発明の実施例による音楽スキルの音声ウェイクアップ方法の一例を示す原理フローチャートである。 本発明の実施例によるスキル音声ウェイクアップ装置の一例を示す構造ブロック図である。
従来技術の問題点を解決するために、本発明は、電子デバイスに適用されているスキルの音声ウェイクアップ方法および装置を提供し、この電子デバイスは、端末デバイスまたはサーバー側であり得る。その中で、端末デバイス例えば、スマートステレオ、自動車、スマートテレビ、スマートフォン、タブレット、スマートウォッチなど、人間とコンピュータの音声対話機能を有する電子機器であり、本発明では制限されなく、サーバー側は、端末装置が人間とコンピュータの音声対話を実現するための技術サポートを提供するサーバー装置であり得る。もちろん、説明される実施形態は本発明の一部の実施形態にすぎず、本発明の全部の実施形態ではない。本発明の実施形態に基づいて、当業者が創造的な努力なしに得られる他の全ての実施形態も本発明の保護範囲に含まれるべきである。
なお、本願の実施形態と実施形態の特徴とは、互いに矛盾することなければ、組み合わせることができる。
本発明は、例えば、プログラムモジュールなどの、コンピューターによって実行されるコンピューター実行可能命令の一般的なコンテキストで説明することができる。プログラムモジュールには、通常、特定のタスクを実行したり、特定の抽象データ型を実現したりするルーチン、プログラム、オブジェクト、コンポーネント、データ構造などが含まれる。本発明は、分散コンピューティング環境で実施することもできる。これらの分散コンピューティング環境では、通信ネットワークを介して接続されたリモート処理デバイスによって、タスクが実行される。分散コンピューティング環境では、プログラムモジュールは、ストレージデバイスを含むローカル及びリモートのコンピューターストレージメディアに配置できる。
本発明では、「モジュール」、「システム」などは、例えば、ハードウェア、ハードウェアとソフトウェアの組み合わせ、ソフトウェア、又は実行中のソフトウェアなどのコンピューターに適用される関連エンティティを指す。具体的には、コンポーネントは、プロセッサで実行するプロセス、プロセッサ、オブジェクト、実行可能なコンポーネント、実行スレッド、プログラム、及び/又はコンピューターであるが、これらに限定されない。また、サーバーで実行するアプリケーションプログラムやスクリプトプログラム、サーバーがコンポーネントと呼ばれることもできる。実行のプロセス及び/又はスレッドには、一つ又は複数のコンポーネントを含んでもよく、且つ、コンポーネントは、一台のコンピューターにローカライズされ、及び/又は二台以上のコンピューターの間に分布され、さまざまなコンピューター可読媒体で実行することができる。コンポーネントは、一つ以上のデータパケットを有する信号によって、ローカル及び/又はリモートプロセスを介して、通信することができる。信号は、例えば、ローカルシステム、分散システムにおけるもう一つのコンポーネントと相互作用するデータ、及び/又はインターネットのようなネットワークで信号を介して他のシステムと相互作用するデータからの信号である。
最後に、用語「含む」、「有する」及びそれらのいずれの変更は、それらの要素だけでなく、明示的にリストされていない他の要素、又はそのようなプロセス、方法、オブジェクト、又は機器に固有の要素も含む。これ以上の制限が課されない場合、「含む」、「有する」及びそれらのいずれの変更によって定義された要素は、その要素を含むプロセス、方法、オブジェクト、又は機器に他の同一要素があることを除外しない。
図1は、本発明の実施例によるスキルの音声ウェイクアップ方法の一例を示すフローチャートである。
図1に示すように、ステップ110では、電子デバイスは、処理する音声要求メッセージに対応するウェイクアップテキスト情報を識別する。音声要求メッセージは、スマート音声デバイスのマイクキャプチャデバイスを介してキャプチャすることで取得することができる。さらに、様々な音声識別技術によって音声要求メッセージに対応するウェイクアップテキスト情報を決定することもでき、ここで制限されない。
ステップ120では、電子デバイスは、業務スキルセマンティックモデルを呼び出してウェイクアップテキスト情報に対応する目標業務分野および対応する第1信頼度を決定し、知識スキルセマンティックモデルを呼び出してウェイクアップテキスト情報に対応する知識応答回答および対応する第2信頼度を決定する。例えば、業務スキルセマンティックモデルと知識スキルセマンティックモデルを並列に呼び出して、同期に予測を行い、対応する予測結果と信頼度を出力することができる。さらに、業務スキルセマンティックモデルは、業務分野タグセットでセマンティックを訓練し、知識スキルセマンティックモデルは知識問答タグセットでセマンティックを訓練し、様々な訓練方法を使用でき、ここで制限されない。
ステップ130では、電子デバイスは、第1信頼度および第2信頼度に基づいて、ウェイクアップ知識スキルと目標業務分野に対応する目標業務スキルの1つを選択する。例えば、第1信頼度が第2信頼度よりも大きい場合、ウェイクアップ目標業務スキルを選択し、第1信頼度が第2信頼度以下である場合、ウェイクアップ知識スキルを選択することができる。信頼度は、予測確率を示し、0~1の数値を取る。したがって、本実施例によれば、音楽スキルと知識スキル間でのユーザ音声意図の予測確率を比較することができ、スキルが誤ってウェイクアップされる確率を低減することができる。
図2は、本発明の実施例による業務スキルセマンティックモデルを呼び出して実行される操作の一例を示すフローチャートである。
図2に示すように、ステップ210では、電子デバイスは、ウェイクアップテキスト情報中のウェイクアップ業務キーワードとウェイクアップ業務実体情報を抽出する。ウェイクアップ業務キーワードは、ウェイクアップテキスト情報において業務属性を有するキーワードであり、ウェイクアップ業務実体情報は、ウェイクアップテキスト情報において実体属性を有する単語であり得る。例えば、ウェイクアップ業務キーワードは、「追憶の夜」、ウェイクアップ業務実体情報は歌手「李谷一」とすることができる。さらに、様々なキーワード抽取モデルを用いて上記のウェイクアップ業務キーワードとウェイクアップ業務実体情報を抽取することができ、ここで制限されない。
ステップ220では、電子デバイスは、業務実体データベースにウェイクアップ業務キーワードおよび対応するウェイクアップ業務実体情報が存在するか否かを判定する。業務実体データベースは、複数の業務キーワードおよび対応する業務実体情報を含み、1つの業務キーワードは複数の業務実体情報に対応することができ。上記の例には、業務実体データベースに「追憶の夜」に対応する例えば「李谷一」、「董文華」、「張也」などの数人の歌手が記憶されている。さらに、業務実体データベース中のデータ情報は、例えば、どの歌手が同じタイトルの歌を演奏したか、どの俳優が同じタイトルの映画を演奏したかといった業務キーワードと業務実体間の関係を反映するように予め収集され配置され得る。
ステップ220中の業務実体データベースにウェイクアップ業務キーワードおよび対応するウェイクアップ業務実体情報が存在する場合、ステップ231に移行する。さらに、ステップ220中の業務実体データベースにウェイクアップ業務キーワードおよび対応するウェイクアップ業務実体情報が存在しない場合、ステップ232に移行する。
ステップ231では、電子デバイスは、ウェイクアップ業務キーワードを業務スキルセマンティックモデルに提供して、目標業務分野および対応する第1信頼度を決定する。上記の例には、ウェイクアップ業務キーワードおよび対応するウェイクアップ業務実体情報はそれぞれ「追憶の夜」と「李谷一」である場合、「追憶の夜」を直接に業務スキルセマンティックモデルに提供して予測操作を行うことができる。
ステップ232では、電子デバイスは、ウェイクアップ業務キーワードに対応する業務関連度情報を取得する。例えば、ウェイクアップ業務キーワードを業務関連度分析ツールに提供し、業務関連度分析ツールから対応する業務関連度情報を取得する。さらに、以下に詳述するように、ウェイクアップ業務キーワードに対応するホットネス情報などを分析することで対応する業務関連度情報を決定することもできる。
ステップ240では、電子デバイスはウェイクアップ業務キーワードと業務関連度情報を業務スキルセマンティックモデルに提供して、目標業務分野および対応する第1信頼度を決定する。このとき、業務スキルセマンティックモデルの入力は、ウェイクアップ業務キーワードに加え、業務関連度情報を有し、つまり、業務関連度情報は業務スキルセマンティックの予測過程に影響を与え、決定された目標業務分野に対する第1信頼度の結果が高い精度を有する。
図3は、本発明の実施例による業務関連度情報の決定操作の一例を示すフローチャートである。
ステップ310では、電子デバイスは、検索エンジンに基づいて、ウェイクアップ業務キーワードに対応する業務ホットネス情報と検索結果業務関連指標を決定する。例示的に、ウェイクアップ業務キーワードに基づいて、検索エンジンを呼び出し、この検索エンジンから上記の業務ホットネス情報と検索結果業務関連指標を取得し、または、この検索エンジンから検索結果を取得して分析することで対応する業務ホットネス情報と検索結果業務関連指標を決定する。検索結果業務関連指標は、検索エンジンで決定された検索結果と業務間の関連度合いを反映する。
いくつかの実施形態では、検索エンジンに基づいて、ウェイクアップ業務キーワードに対応する検索結果を決定する。さらに、予め設定された検索結果評価策略に基づいて、この検索結果に対応する検索結果業務関連指標を決定する。例えば、上位ランキングの所定数(例えば10個)の検索結果を用いて目標業務分野の関連度を評価し、検索結果業務関連指標は、強い関連、一般的な関連または弱い関連性の多段指標を有し得る。
業務関連指標の精度を確保するために、業務関連指標を特定するための検索を複数回行う検索バリアントが実行されることもある。具体的に、ウェイクアップ業務キーワードを検索エンジンに提供して、対応する第1検索結果を決定し、ウェイクアップ業務キーワードと目標業務分野に対応する業務名称を検索エンジンに提供して、対応する第2検索結果を決定することができる。さらに、検索結果評価策略により、第1検索結果および第2検索結果を評価し、対応する検索結果業務関連指標を決定し、例えば、第1検索結果および第2検索結果と業務間の関連性を総合的に考慮する。
ステップ320では、電子デバイスは、業務ホットネス情報と検索結果業務関連指標に基づいて、業務関連度情報を決定する。例えば、業務関連度情報は、業務ホットネス情報と検索結果業務関連指標を含み、または業務ホットネス情報と検索結果業務関連指標は業務関連度情報に対して重み付け構成がある。
図4は、本発明の実施例による音楽スキルの音声ウェイクアップ方法の一例を示す原理フローチャートである。
本実施例の業務スキルは、様々な業務に特化することが可能であり、以下の実施例では音楽スキルのみを例示して説明する。
なお、音楽分野では、「曲名+歌手名」のような正則マッチングに基づくウェイクアップ方法が存在し、多くのスピーカー製品で採用されている。例えば、ユーザが直接に「劉徳華の愛情忘却水」と言うと、「愛情忘却水」という曲を直接に再生することができる。拡張しやすいために、「劉徳華」に対応する曲名シソーラスが関連付けられ、「愛情忘却水」にも対応する歌手名シソーラスが関連付けられ、2つのシソーラスに多くの情報があり、業務スキルと知識スキルを誤って呼び出しやすい状況がある。
現在の関連技術では、一般的に曲名または歌手名シソーラスの対応語句を直接削除するのが普通である。しかしながら、そうすると指定された曲名または歌手名を実際に言うと、セマンティック解析に失敗することがある。また、ある応用シナリオによって、ユーザが間違った歌手情報を言った場合でも、曲情報に基づいて正確な音楽を再生できることも期待し、例えば、ユーザが「劉徳華のKiss Goodbye」を言った場合、マッチングされないが、Kiss Goodbyeという曲を再生できる。
本実施例では、クローラを用いて音楽曲名のホットネス情報や検索情報を取得し、このように、セマンティック解析において曲名にホットネス情報、検索情報などおよび信頼度情報を付与して解析するようにことができる。ここでは、検索情報の取得過程について、「曲名」を直接に検索エンジンに入れて第1語彙が音楽用語かどうかを判定し、第1語彙が音楽用語でない場合、検索エンジンは「曲名+歌曲」(例えば、「歌曲Kiss Goodbye」)を検索し第1語彙が音楽用語かどうかを判定する。したがって、検索情報は様々な検索結果関連状態にある。
また、本実施例では、音楽知識ベースを自己構築し、曲名から対応するすべての歌手リストを検査することができる。
さらに、セマンティック解析によりセマンティックスロットに曲名+歌手名のみがあると解析した場合、音楽知識ベースを検査し、マッチングかどうかを確認する。マッチングの場合、タスク型スキル信頼度と知識型スキル信頼度を比較する。また、マッチングしない場合、歌曲ホットネス情報、検索情報および信頼度情報と併せて新しい信頼度を再び算出した後、知識型スキル信頼度とタスク型スキル信頼度を再度比較する。
図4に示すフローでは、テキストが入力された後、タスク型スキルセマンティック解析と知識型スキルを並列にディスパッチし、タスク型スキルは複数分野のセマンティック解析結果(slotセマンティックスロット情報と信頼度情報を含み、セマンティックスロットが曲名である場合、ホットネスと検索情報を含む)を返答し、知識型スキルは回答結果および信頼度などの情報を返答する。
さらに、両方から結果を得た後、返答されたタスク型が音楽分野を含んでいるかどうかを判定する(1文のタスク型が複数分野の解析結果を返答することもある)。
次に、返答された業務分野に音楽分野が含まれる場合、解析されたセマンティックスロットは単純の「曲名+歌手名」であるかどうかを判定する。
そして、「曲名+歌手名」である場合、音楽知識ベースを呼び出して、曲名と歌手名がマッチングするかどうかを判定する。
その後、曲名+歌手名がマッチングする場合、タスク型セマンティック解析結果と知識型スキルスケジューリング融合モジュールを使用する。
次に、曲名+歌手名がマッチングしない場合、タスク型スキル解析信頼度を再び算出し(検索情報、ホットネス情報、信頼度情報と併せて)、融合モジュールを呼び出して、タスク型または知識型を選択する。タスク型を選択すると、複数のタスク型スキルから融合アルゴリズムによって1つを選択し、知識型スキルを選択すると、知識型ベースのデータを融合モジュールでプロトコルを従って直接組織して返す。
表1は、本発明の実施例の音楽スキルの音声ウェイクアップ方法の使用前後の実験データテーブルを示す。
表1
Figure 2023506087000002
表1に示すように、TP:正類、タスク型スキルに当たり、TN:負類、知識型スキルに当たり、FP:負類、正類として判定し、FN:正類、負類として判定し、recall:再現率(TP/(TP+FN))、precision:精度(TP/(TP+FP))、accuracy:正確さ((TP+TN)/(TP+FP+TN+FN))、F値:(2*precision*recall/(precision+recall))。
最適化前後を比較すると、F値が5%向上したことが容易に分かる。さらに、融合アルゴリズムをさらに調整したり、case by caseを最適化したりすれば、より良好な最適化効果が得られる。
図5は、本発明の実施例のスキル音声ウェイクアップ装置の一例を示す構造ブロック図である。
図5に示すように、スキル音声ウェイクアップ装置500は、音声識別ユニット510、モデル呼び出しユニット520およびスキルウェイクアップユニット530を含む。
音声識別ユニット510は、処理する音声要求メッセージに対応するウェイクアップテキスト情報を識別するように構成される。音声識別ユニット510の操作は、上記の図1のステップ110の説明を参照すればよい。
モデル呼び出しユニット520は、業務スキルセマンティックモデルを呼び出してウェイクアップテキスト情報に対応する目標業務分野および対応する第1信頼度を決定し、知識スキルセマンティックモデルを呼び出してウェイクアップテキスト情報に対応する知識応答回答および対応する第2信頼度を決定するように構成される。モデル呼び出しユニット520の操作は、上記の図1のステップ120の説明を参照すればよい。
スキルウェイクアップユニット530は、第1信頼度および第2信頼度に基づいて、ウェイクアップ知識スキルと目標業務分野に対応する目標業務スキルの1つを選択するように構成される。スキルウェイクアップユニット530の操作は、上記の図1のステップ130の説明を参照すればよい。
本発明の実施例の装置は、本発明の対応の方法の実施例を実施するために使用され、上記の本発明の方法の実施例の技術的効果を達成することができ、ここで繰り返さない。
一方、本発明の実施例は、プロセッサによって実行されると上記のスキルの音声ウェイクアップ方法のステップを実施するコンピュータープログラムが記憶された記憶媒体を提供する。
上記製品は、本発明の実施例に係る方法を実行可能であり、方法を実行する関連機能モジュール及び有利な作用効果を有する。本実施例において詳しく記述されていない技術的詳細は、本発明の実施例に係る方法を参照可能である。
本発明の実施形態の電子デバイスは、以下のデバイスを含むが、これらに限定されない様々な形態で存在する。
(1)モバイル通信デバイス:これらのデバイスは、その特徴がモバイル通信機能を備えることであり、音声及びデータ通信を提供することを主な目標として、スマートフォン(例えば、iphone)、マルチメディア携帯電話、機能携帯電話、ローエンド携帯電話などを含む。
(2)ウルトラモバイルパソコンデバイス:これらのデバイスは、パソコンのカテゴリーに属し、計算及び処理の機能を持ち、一般にモバイルインターネットアクセスの特性を持って、例えば、iPadなどのPDA、MID及びUMPCデバイスなどを含む。
(3)ポータブルエンターテイメントデバイス:これらのデバイスは、マルチメディアコンテンツを表示及び放送でき、オーディオ、ビデオプレーヤー(例えば、iPod)、ハンドヘルドゲームデバイス、電子書籍、インテリジェントおもちゃ及びポータブルカーナビゲーションデバイスを含む。
(4)データー交換機能を備えたその他の電子デバイス。
上記の装置の実施形態は、例示的だけであり、分離するコンポーネントとして記載されたユニットは、物理的に分離されるものであってもよく、分離されないものであってもよい。ユニットとして表示されるコンポーネントは、物理ユニットであってもよく、物理ユニットではなくてもよい。即ち、 一つの場所に配置することもでき、複数のネットワークユニットに分散することもできる。実際のニーズに応じて、いくつかのモジュール又はすべてのモジュールを選択することができ、実施形態の目的を達成するようになる。
上記の実施形態の説明を通じて、当業者は、各実施形態がソフトウェア及び共通のハードウェアプラットフォームによって実現することができ、もちろん、ハードウェアによって実現することもできることを明確に理解することができる。この理解に基づいて、上記の技術方案の本質又は関連技術に貢献する部分は、ソフトウェア製品の形式で具体化でき、コンピューターソフトウェア製品は、例えば、ROM/RAM、磁気ディスク、コンパクトディスクなどのコンピューター可読記憶媒体に格納でき、コンピューターデバイス(パーソナルコンピューター、サーバー又はネットワークデバイスなどである)に、各々の実施形態又は実施形態のある部分に記載された方法を実行させるように、いくつかの命令を含む。
最後に、上記した実施形態は、本発明の技術構成を説明するためのものであり、本発明を限定するためのものではない。当業者であれば、本発明の技術構成の趣旨や範囲を逸脱しない前提下で、上述した実施形態に対して修正することもできるし、一部の技術的特徴を均等置換することもできる。これらの修正や置換は、いずれも本発明の保護範囲に含まれるべきである。

Claims (10)

  1. 電子デバイスに適用されているスキルの音声ウェイクアップ方法であって、前記方法は、
    処理する音声要求メッセージに対応するウェイクアップテキスト情報を識別するステップと、
    業務スキルセマンティックモデルを呼び出して前記ウェイクアップテキスト情報に対応する目標業務分野および対応する第1信頼度を決定し、知識スキルセマンティックモデルを呼び出してウェイクアップテキスト情報に対応する知識応答回答および対応する第2信頼度を決定するステップと、
    第1信頼度および第2信頼度に基づいて、ウェイクアップ知識スキルと目標業務分野に対応する目標業務スキルの1つを選択するステップとを含む、スキルの音声ウェイクアップ方法。
  2. 前記業務スキルセマンティックモデルを呼び出して前記ウェイクアップテキスト情報に対応する目標業務分野および対応する第1信頼度を決定するステップは、
    前記ウェイクアップテキスト情報中のウェイクアップ業務キーワードおよびウェイクアップ業務実体情報を抽出するステップと、
    複数の業務キーワードおよび対応する業務実体情報を含む業務実体データベースに前記ウェイクアップ業務キーワードおよび対応する前記ウェイクアップ業務実体情報が存在するか否かを判定するステップと、
    前記業務実体データベースに前記ウェイクアップ業務キーワードおよび前記対応する前記ウェイクアップ業務実体情報が存在する場合、前記ウェイクアップ業務キーワードを前記業務スキルセマンティックモデルに提供して、前記目標業務分野および対応する第1信頼度を決定するステップと、を含む、請求項1に記載の方法。
  3. 前記業務実体データベースに前記ウェイクアップ業務キーワードまたは前記対応する前記ウェイクアップ業務実体情報が存在しない場合、前記方法は、
    前記ウェイクアップ業務キーワードに対応する業務関連度情報を取得するステップと、
    前記ウェイクアップ業務キーワードおよび前記業務関連度情報を前記業務スキルセマンティックモデルに提供して、前記目標業務分野および対応する第1信頼度を決定するステップと、をさらに含む、請求項2に記載の方法。
  4. 前記ウェイクアップ業務キーワードに対応する前記業務関連度情報を取得するステップは、
    検索エンジンに基づいて前記ウェイクアップ業務キーワードに対応する業務ホットネス情報および検索結果業務関連指標を決定するステップと、
    前記業務ホットネス情報および前記検索結果業務関連指標に基づいて、前記業務関連度情報を決定するステップと、を含む、請求項3に記載の方法。
  5. 前記検索エンジンに基づいて前記ウェイクアップ業務キーワードに対応する前記業務ホットネス情報および前記検索結果業務関連指標を決定するステップは、
    前記検索エンジンに基づいて前記ウェイクアップ業務キーワードに対応する検索結果を決定するステップと、
    予め設定された検索結果評価策略に基づいて、前記検索結果に対応する前記検索結果業務関連指標を決定するステップと、を含む、請求項4に記載の方法。
  6. 前記検索エンジンに基づいて前記ウェイクアップ業務キーワードに対応する検索結果を決定するステップは、
    前記ウェイクアップ業務キーワードを前記検索エンジンに提供して、対応する第1検索結果を決定するステップと、
    前記ウェイクアップ業務キーワードおよび前記目標業務分野に対応する業務名称を前記検索エンジンに提供して、対応する第2検索結果を決定するステップと、を含む、請求項5に記載の方法。
  7. 前記目標業務スキルは音楽スキルを含む、請求項1に記載の方法。
  8. 電子デバイスに適用されているスキル音声ウェイクアップ装置であって、前記装置は、
    処理する音声要求メッセージに対応するウェイクアップテキスト情報を識別するように構成された音声識別ユニットと、
    業務スキルセマンティックモデルを呼び出して前記ウェイクアップテキスト情報に対応する目標業務分野および対応する第1信頼度を決定し、知識スキルセマンティックモデルを呼び出して前記ウェイクアップテキスト情報に対応する知識応答回答および対応する第2信頼度を決定するように構成されたモデル呼び出しユニットと、
    前記第1信頼度および前記第2信頼度に基づいて、ウェイクアップ知識スキルおよび前記目標業務分野に対応する目標業務スキルの1つを選択するように構成されたスキルウェイクアップユニットと、を含む、スキル音声ウェイクアップ装置。
  9. 少なくとも1つのプロセッサ、および前記少なくとも1つのプロセッサに通信可能に接続されたメモリを含み、前記メモリに前記少なくとも1つのプロセッサによって実行され得る指令が記憶され、前記指令は前記少なくとも1つのプロセッサによって実行されると、前記少なくとも1つのプロセッサは請求項1から7のいずれか1項に記載の方法のステップを実施する、電子デバイス。
  10. プロセッサによって実行されると請求項1から7のいずれか1項に記載の方法のステップが実施されるコンピュータープログラムが記憶された記憶媒体。

JP2022540758A 2019-12-31 2020-10-26 スキルの音声ウェイクアップ方法および装置 Active JP7436077B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201911422397.2 2019-12-31
CN201911422397.2A CN111081225B (zh) 2019-12-31 2019-12-31 技能语音唤醒方法及装置
PCT/CN2020/123643 WO2021135561A1 (zh) 2019-12-31 2020-10-26 技能语音唤醒方法及装置

Publications (2)

Publication Number Publication Date
JP2023506087A true JP2023506087A (ja) 2023-02-14
JP7436077B2 JP7436077B2 (ja) 2024-02-21

Family

ID=70321405

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022540758A Active JP7436077B2 (ja) 2019-12-31 2020-10-26 スキルの音声ウェイクアップ方法および装置

Country Status (5)

Country Link
US (1) US11721328B2 (ja)
EP (1) EP4086892A4 (ja)
JP (1) JP7436077B2 (ja)
CN (1) CN111081225B (ja)
WO (1) WO2021135561A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111081225B (zh) * 2019-12-31 2022-04-01 思必驰科技股份有限公司 技能语音唤醒方法及装置
CN111949178B (zh) * 2020-08-13 2022-02-22 百度在线网络技术(北京)有限公司 技能切换方法、装置、设备以及存储介质
US20230008868A1 (en) * 2021-07-08 2023-01-12 Nippon Telegraph And Telephone Corporation User authentication device, user authentication method, and user authentication computer program

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013190985A (ja) * 2012-03-13 2013-09-26 Sakae Takeuchi 知識応答システム、方法およびコンピュータプログラム
CN107316643A (zh) * 2017-07-04 2017-11-03 科大讯飞股份有限公司 语音交互方法及装置
JP2018503857A (ja) * 2015-07-02 2018-02-08 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド 車載音声命令の認識方法、装置及び記憶媒体
CN109658271A (zh) * 2018-12-19 2019-04-19 前海企保科技(深圳)有限公司 一种基于保险专业场景的智能客服系统及方法

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070050371A1 (en) * 2005-08-26 2007-03-01 Trumba Corporation Interacting with an online database through a variety of communications media
US7917368B2 (en) * 2008-02-25 2011-03-29 Mitsubishi Electric Research Laboratories, Inc. Method for interacting with users of speech recognition systems
US8359020B2 (en) * 2010-08-06 2013-01-22 Google Inc. Automatically monitoring for voice input based on context
US9082402B2 (en) 2011-12-08 2015-07-14 Sri International Generic virtual personal assistant platform
US10354650B2 (en) * 2012-06-26 2019-07-16 Google Llc Recognizing speech with mixed speech recognition models to generate transcriptions
US9058805B2 (en) * 2013-05-13 2015-06-16 Google Inc. Multiple recognizer speech recognition
JP6324249B2 (ja) 2014-07-22 2018-05-16 アルパイン株式会社 電子装置、音声認識システムおよび音声認識プログラム
US9871927B2 (en) 2016-01-25 2018-01-16 Conduent Business Services, Llc Complexity aware call-steering strategy in heterogeneous human/machine call-center environments
US20180054523A1 (en) 2016-08-16 2018-02-22 Rulai, Inc. Method and system for context sensitive intelligent virtual agents
US10120861B2 (en) * 2016-08-17 2018-11-06 Oath Inc. Hybrid classifier for assigning natural language processing (NLP) inputs to domains in real-time
CN107657949A (zh) 2017-04-14 2018-02-02 深圳市人马互动科技有限公司 游戏数据的获取方法及装置
CN107134279B (zh) 2017-06-30 2020-06-19 百度在线网络技术(北京)有限公司 一种语音唤醒方法、装置、终端和存储介质
US10449440B2 (en) * 2017-06-30 2019-10-22 Electronic Arts Inc. Interactive voice-controlled companion application for a video game
US11581095B2 (en) * 2017-10-10 2023-02-14 Sanofi Medical query answering apparatus
CN107871506A (zh) * 2017-11-15 2018-04-03 北京云知声信息技术有限公司 语音识别功能的唤醒方法及装置
CN108335696A (zh) * 2018-02-09 2018-07-27 百度在线网络技术(北京)有限公司 语音唤醒方法和装置
CN110299136A (zh) 2018-03-22 2019-10-01 上海擎感智能科技有限公司 一种用于语音识别的处理方法及其系统
CN108694942A (zh) 2018-04-02 2018-10-23 浙江大学 一种基于家居智能服务机器人的智能家居交互问答系统
CN109493863A (zh) * 2018-12-26 2019-03-19 广州灵聚信息科技有限公司 一种智能唤醒方法和装置
CN110570861B (zh) * 2019-09-24 2022-02-25 Oppo广东移动通信有限公司 用于语音唤醒的方法、装置、终端设备及可读存储介质
CN111081225B (zh) 2019-12-31 2022-04-01 思必驰科技股份有限公司 技能语音唤醒方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013190985A (ja) * 2012-03-13 2013-09-26 Sakae Takeuchi 知識応答システム、方法およびコンピュータプログラム
JP2018503857A (ja) * 2015-07-02 2018-02-08 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド 車載音声命令の認識方法、装置及び記憶媒体
CN107316643A (zh) * 2017-07-04 2017-11-03 科大讯飞股份有限公司 语音交互方法及装置
CN109658271A (zh) * 2018-12-19 2019-04-19 前海企保科技(深圳)有限公司 一种基于保险专业场景的智能客服系统及方法

Also Published As

Publication number Publication date
US20230075023A1 (en) 2023-03-09
CN111081225B (zh) 2022-04-01
WO2021135561A1 (zh) 2021-07-08
EP4086892A4 (en) 2023-05-31
EP4086892A1 (en) 2022-11-09
US11721328B2 (en) 2023-08-08
CN111081225A (zh) 2020-04-28
JP7436077B2 (ja) 2024-02-21

Similar Documents

Publication Publication Date Title
US9582757B1 (en) Scalable curation system
JP7436077B2 (ja) スキルの音声ウェイクアップ方法および装置
CN111033492A (zh) 为自动化助手提供命令束建议
CN108538298B (zh) 语音唤醒方法及装置
KR20180070684A (ko) 다이얼로그 시스템들에서의 파라미터 수집 및 자동 다이얼로그 생성
CN111970409B (zh) 基于人机交互的语音处理方法、装置、设备和存储介质
CN106407393B (zh) 一种用于智能设备的信息处理方法及装置
CN109979450B (zh) 信息处理方法、装置及电子设备
KR101891498B1 (ko) 대화형 ai 에이전트 시스템에서 멀티 도메인 인텐트의 혼재성을 해소하는 멀티 도메인 서비스를 제공하는 방법, 컴퓨터 장치 및 컴퓨터 판독가능 기록 매체
CN112286485B (zh) 通过语音控制应用的方法、装置、电子设备与存储介质
CN111341308A (zh) 用于输出信息的方法和装置
CN111309857A (zh) 一种处理方法及处理装置
CN112417107A (zh) 一种信息处理方法及装置
CN112115244A (zh) 对话交互方法、装置、存储介质及电子设备
KR101959292B1 (ko) 문맥 기반으로 음성 인식의 성능을 향상하기 위한 방법, 컴퓨터 장치 및 컴퓨터 판독가능 기록 매체
US20230252061A1 (en) Providing responses to queries of transcripts using multiple indexes
CN114299955B (zh) 语音交互的方法、装置、电子设备及存储介质
CN114242047A (zh) 一种语音处理方法、装置、电子设备及存储介质
CN111339770B (zh) 用于输出信息的方法和装置
CN110532565B (zh) 语句处理方法及装置、以及电子设备
KR101970899B1 (ko) 문맥 기반으로 음성 인식의 성능을 향상하기 위한 방법, 컴퓨터 장치 및 컴퓨터 판독가능 기록 매체
WO2019066132A1 (ko) 보안성을 강화한 사용자 문맥 기반 인증 방법, 대화형 ai 에이전트 시스템 및 컴퓨터 판독가능 기록 매체
CN113132927B (zh) 一种来电处理方法、装置、设备和机器可读介质
US20210264910A1 (en) User-driven content generation for virtual assistant
CN116075885A (zh) 用于第三方数字助理动作的基于位向量的内容匹配

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230119

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230119

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20230119

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230314

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230912

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231124

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240109

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240201

R150 Certificate of patent or registration of utility model

Ref document number: 7436077

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150