JP7135084B2 - 自然言語処理におけるファジー・マッチングのための音声パターン - Google Patents

自然言語処理におけるファジー・マッチングのための音声パターン Download PDF

Info

Publication number
JP7135084B2
JP7135084B2 JP2020524106A JP2020524106A JP7135084B2 JP 7135084 B2 JP7135084 B2 JP 7135084B2 JP 2020524106 A JP2020524106 A JP 2020524106A JP 2020524106 A JP2020524106 A JP 2020524106A JP 7135084 B2 JP7135084 B2 JP 7135084B2
Authority
JP
Japan
Prior art keywords
token
pattern
phonetic
sound pattern
computer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020524106A
Other languages
English (en)
Other versions
JP2021503097A (ja
Inventor
トリム、クレイグ
ガンシ、ジュニア、ジョン
フオッコ、ショーン
ズン、ジー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JP2021503097A publication Critical patent/JP2021503097A/ja
Application granted granted Critical
Publication of JP7135084B2 publication Critical patent/JP7135084B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/027Syllables being the recognition units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/33Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using fuzzy logic

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)

Description

本発明は、一般に、自然言語処理(NLP)に関し、より詳細には、自然言語処理におけるファジー・マッチングのための音声パターンに関する方法、システム、およびコンピュータ・プログラム製品に関する。
自然言語(NL)は、主として、他の人間とまたは自然言語インタフェースを有するシステムと通信するために人間によって利用される形態を有するスクリプト化(文書)または発声(話し言葉)言語である。
自然言語処理(NLP)は、人間とデータ処理システムとの間の情報の交換を容易にする技法である。例えば、NLPの1つのブランチは、人間が読めるまたは人間が理解できるコンテンツを機械使用可能データに変換することに関する。例えば、NLPエンジンは、現在、新聞記事または人間の発話などの入力コンテンツを受け入れ、所与のコンテンツから、入力コンテンツの概要、最も重要な部分および最も重要でない部分、主題、参照、コンテンツ内の依存関係などのような構造化データを生成するために使用することができる。
NL入力は、自然言語の文法を使用して構築され、限定はしないが、テキスト、オーディオ、およびそれらの形式、例えば、オーディオ発話からの書き起こし、テキストからの機械生成オーディオなどを含む適切な形式で提示された入力である。NL入力の単位は、入力の意味のある最短部分である。例えば、英語では、単位は単語であり、単語は、NL入力の句、文、および段落などの他のより大きい構造を形成する。NL入力の単位は、本明細書ではトークンとも呼ばれる。
現在、NL入力を理解する際にマシンを有効にするために、アルゴリズムを利用することができる。NL入力を理解する主要部分は、NLトークンの多くのありそうな機械解釈から正しい選択を繰り返して確実に選定することである。例えば、マシンは、「tow-mah-tow」および「tuh-may-tow」は「tomato」を表現する単に異なる方式であり、「tow-mah-tow」がNLトークンとして提示される場合、そのトークンに対する正しい選定または選択は「tomato」であると結論を下すことができなければならない。
例示の実施形態は、トークンの機械理解が多くの要因に敏感であることを認識している。ある場合には、トークンまたはその一部に強調を置くことが、トークンに対応する選定を誤らせる場合がある。他の場合には、方言、アクセント、NL入力の局所性が、トークンの意味に影響を与える。さらに、トークンに対応する複数の有効な選択がある場合があるが、それらのうちの1つのみが、関連する要因に基づくと正しい。
例示の実施形態が意図している要因は、本明細書で説明するようなトークンの音声変化に関連する。そのため、NLトークンの機械理解に影響を与える例示の実施形態が意図している要因は、正しいトークン認識に影響を与えるミススペリングおよびキー入力誤りタイプの理由とは異なる。現在、ミススペルされたトークンがテキストのNL入力に発生している場合にNLPマシンが正しい選択を選定するのに役立つ技法が存在する。ミススペルされたトークンが生じたときにNLPマシンが正しい選定を行うように支援するために、いくつかのミススペルされたトークンは、同じ正しい単語にマッピングされる、例えば、「tirminate」、「termate」、および「termenate」などのミススペリングは、正しい選定の「terminate」にマッピングされる。
いくつかの現在使用されているNLPアルゴリズムは、正しいスペリングにマッピングされたミススペリングの大きなキャッシュを構築している。そのようなキャッシュは大きくすることができるが、依然として完全にはほど遠い。例えば、単に英語のキャッシュでは、単一の8文字単語が、理論的に26(208,827,064,576)の可能な変形を有することができる。この種類のアルゴリズムのうちのいくつかのアルゴリズムは、例えば、最も一般的なミススペリングのみを含めることによってキャッシュを最適化している。依然として、マッピングのキャッシュは完全にはほど遠いままであり、拡張可能でなく、限定的なタイプの問題、テキスト入力におけるミススペリングしか扱えない。
ファジー・マッチングは、選定のセットからの選択または選定にNLトークンをマッピングするために使用される別の種類のアルゴリズムである。ファジー・マッチング・アルゴリズムは、テキスト入力からの所与のトークン・ストリングと選定のセット内の利用可能な選定ストリングとの間の類似性を見いだす手段として、編集距離アルゴリズムの変形を使用するストリング・マッチング・アルゴリズムである。ファジー・マッチング・アルゴリズムは、さらに、テキストのNL入力で動作し、現在、ミススペルされた文字列を正しく理解するように構成されている。
現在、ファジー・マッチング・アルゴリズムは、精度を犠牲にして高い再現率(recall)を有するように設計されている。再現率は、検索された関連事例の分率(fraction)であり、精度は、関連している検索された事例の分率である。精度は、正確さまたは品質の尺度と見なすことができ、一方、再現率は完全性または数量の尺度である。最大精度はフォールス・ポジティブでないことを示し、最大再現率はフォールス・ネガティブでないことを示す。
自然言語処理におけるファジー・マッチングのための音声パターンに関する方法、コンピュータ・プログラム製品、およびコンピュータ・システムを提供する。
例示の実施形態は、方法、システム、およびコンピュータ・プログラム製品を提供する。一実施形態は、自然言語(NL)入力からトークンを抽出する方法を含む。この実施形態は、トークンに対応する音声パターンを計算し、音声パターンは、トークンが話されるときにトークンの一部を表す音パターンを含む。この実施形態は、音声パターンのデータから新しいデータを作成し、新しいデータは、音声パターンに対応する音節シーケンスを含む。この実施形態は、トークンに対応する音節シーケンスのマトリクスに新しいデータを格納することによってデータ・ストレージ・デバイスの状態を変更する。この実施形態は、プロセッサおよびメモリを使用してファジー・マッチング・アルゴリズムを実行することによって、トークンに対応するオプションを選定し、選定することは、マトリクス内の音節シーケンスに基づく。このようにして、この実施形態は、NLトークンに対するマッチング・オプションを選定することによってファジー・マッチング・アルゴリズムの精度の改善をもたらし、そのオプションは、そのオプションがトークンを表す音節シーケンスにも対応するので選定される。
別の実施形態は、さらに、音声パターンに対応する第2の音節シーケンスを計算する。この実施形態は、第2の音節シーケンスをマトリクスにセーブする。このようにして、この実施形態は、トークンを表す複数の音節シーケンスを構成するのを可能にする。
別の実施形態は、さらに、音声リポジトリ内の格納された音声パターンがトークンに対応するかどうかを決定する。この実施形態は、格納された音声パターンがトークンに対応することに応答して、格納された音声パターンを音声パターンとして選定する。このようにして、この実施形態は、トークンの以前の発生からの経時的に学習した音声パターンを使用する。
別の実施形態は、さらに、音声パターンを形成するために、音声リポジトリ内の第2のトークンに対応する格納された音声パターンを変更し、第2のトークンは、閾値よりも大きいトークンとの構造類似度を有するトークンに相当する。このようにして、この実施形態は、トークンの音声パターンを構築するために、類似しているが異なるトークンの音声パターンを使用する。
別の実施形態では、少なくとも閾値の類似度がトークンのスペリングと第2のトークンのスペリングとの間に存在するので、構造類似性が存在する。このようにして、この実施形態は、類似するトークンを選定する1つの方法を提供する。
別の実施形態では、少なくとも閾値の類似度がトークンのスペリングの長さと第2のトークンのスペリングの長さとの間に存在するので、構造類似性が存在する。このようにして、この実施形態は、類似するトークンを選定する別の方法を提供する。
別の実施形態では、少なくとも閾値の類似度がトークンの母音のシーケンスと第2のトークンの母音のシーケンスとの間に存在するので、構造類似性が存在する。このようにして、この実施形態は、類似するトークンを選定する別の方法を提供する。
別の実施形態では、音パターンが音声表示を含み、少なくとも閾値の類似度がトークンのいくつかの音声表示と第2のトークンのいくつかの音声表示との間に存在するので、構造類似性が存在する。このようにして、この実施形態は、類似するトークンを選定する別の方法を提供する。
別の実施形態では、音パターンが音声表示を含み、少なくとも閾値の類似度がトークンの音声表示の順序と第2のトークンの音声表示の順序との間に存在するので、構造類似性が存在する。このようにして、この実施形態は、類似するトークンを選定する別の方法を提供する。
別の実施形態では、音パターンが音声表示を含み、少なくとも閾値の類似度がトークンの音声表示の強調と第2のトークンの音声表示の強調との間に存在するので、構造類似性が存在する。このようにして、この実施形態は、類似するトークンを選定する別の方法を提供する。
別の実施形態は、さらに、第2の音パターンを第2の音声パターンに追加することによって、第2の音声パターンから音声パターンを計算する。それにより、この実施形態は、トークンの音声パターンを作成するために類似するトークンの音声パターンを変更する方法を提供する。
別の実施形態は、さらに、第2の音声パターンから第2の音パターンを除去することによって第2の音声パターンから音声パターンを計算する。それにより、この実施形態は、トークンの音声パターンを作成するために類似するトークンの音声パターンを変更する別の方法を提供する。
別の実施形態は、さらに、第2の音声パターンの第2の音パターンを音パターンと取り替えることによって第2の音声パターンから音声パターンを計算する。それにより、この実施形態は、トークンの音声パターンを作成するために類似するトークンの音声パターンを変更する別の方法を提供する。
別の実施形態は、さらに、第2の音声パターンの音パターンのシーケンスを変更することによって第2の音声パターンから音声パターンを計算する。それにより、この実施形態は、トークンの音声パターンを作成するために類似するトークンの音声パターンを変更する別の方法を提供する。
別の実施形態は、さらに、第2の音声パターンの第2の音パターンの期間を変更することによって第2の音声パターンから音声パターンを計算する。それにより、この実施形態は、トークンの音声パターンを作成するために類似するトークンの音声パターンを変更する別の方法を提供する。
別の実施形態は、さらに、第2の音声パターンの第2の音パターンの強調を変更することによって、第2の音声パターンから音声パターンを計算する。それにより、この実施形態は、トークンの音声パターンを作成するために類似するトークンの音声パターンを変更する別の方法を提供する。
別の実施形態は、さらに、トークンに対応する音声パターンのセットを計算し、音声パターンは音声パターンのセットのメンバである。したがって、この実施形態によって、複数の音声パターンがトークンを表すことができることが提供される。
別の実施形態では、トークンが言語の方言で話されるとき、音パターンはトークンの一部を表す。それにより、この実施形態によって、複数の音声パターンは、音声パターンが方言で話すことにより作成された音パターンに基づくようにトークンを表すことができることが提供される。
別の実施形態では、トークンが言語のアクセントを伴って話されるとき、音パターンはトークンの一部を表す。それにより、この実施形態によって、複数の音声パターンは、音声パターンがアクセントを伴って話すことにより作成された音パターンに基づくようにトークンを表すことができることが提供される。
別の実施形態では、トークンが話者の発話特異性(speech-peculiarity)をもつ言語で話されるとき、音パターンがトークンの一部を表す。それにより、この実施形態によって、複数の音声パターンは、音声パターンが話者の話し方関連の個人的特質により作成された音パターンに基づくようにトークンを表すことができることが提供される。
別の実施形態では、トークンは、NL入力内に発話に関しての意味のある最短単位を含む。それにより、この実施形態は、トークンを形成することができる特定のタイプの言語構成を提供する。
一実施形態は、コンピュータ使用可能プログラム製品を含む。コンピュータ使用可能プログラム製品は、コンピュータ可読ストレージ・デバイスと、ストレージ・デバイスに格納されたプログラム命令とを含む。
一実施形態はコンピュータ・システムを含む。コンピュータ・システムは、プロセッサ、コンピュータ可読メモリ、およびコンピュータ可読ストレージ・デバイス、ならびにメモリを介したプロセッサによる実行のためのストレージ・デバイスに格納されたプログラム命令を含む。
例示の実施形態は、テキスト入力のミススペリング以外の要因がNLトークンを理解する精度を担っていることを認識している。そのような要因は、トークンのテキストのスペリングの正確さまたは不正確さよりはむしろトークンの音色または音声特性に依存する。
例示の実施形態は、NL入力に対応する選定を行うときに再現率特性を変わらないようにしながら、ファジー・マッチング・アプリケーションの精度を向上させるために、トークンの音声変化をNLPにおいて表すことができる方法が必要とされることを認識している。例示の実施形態は、トークンに対応する正しい選定を決定する際にトークンの音声特性を追加の入力として使用することができるように現在利用可能なファジー・マッチング・アルゴリズムを変更する必要があることを認識している。
本発明の特質と考えられるいくつかの新規な特徴は、添付の特許請求の範囲に記載される。しかしながら、本発明自体、ならびにその好ましい使用の態様、さらなる目的、および利点は、添付の図面と併せて読むとき、例示の実施形態の以下の詳細な説明を参照することによって最もよく理解されるであろう。
例示の実施形態を実施することができるデータ処理システムのネットワークのブロック図である。 例示の実施形態を実施することができるデータ処理システムのブロック図である。 例示の実施形態による自然言語処理におけるファジー・マッチングのための音声パターンの例示の構成のブロック図である。 例示の実施形態による自然言語処理におけるファジー・マッチングのための音声パターンの例示のアプリケーションのブロック図である。 例示の実施形態による自然言語処理におけるファジー・マッチングのための音声パターンの例示のプロセスのフローチャートである。 例示の実施形態によるNLトークンの音声パターン選定を改善するための機械学習の例示のプロセスのフローチャートである。
例示の実施形態は、現在利用可能なツールもしくは解決策が、これらのニーズ/問題に対処しないか、またはこれらのニーズ/問題に適切な解決策を提供しないことを認識している。本発明を説明するために使用される例示の実施形態は、一般に、自然言語処理におけるファジー・マッチングのための音声パターンによって上述の問題および他の関連する問題に対処し解決する。
一実施形態は、ソフトウェア・アプリケーションとして実装することができる。実施形態を実装するアプリケーションまたはその1つまたは複数のコンポーネントは、ファジー・マッチング・アルゴリズム(ファジー・マッチング・アプリケーション)を実装する既存のアプリケーション、すなわち、ファジー・マッチング・アプリケーションのネイティブ・アプリケーションの変形として、Bluetooth(R)などの短距離無線通信ネットワークを介して、有線もしくはワイヤライン・ローカル・エリア・ネットワーク(LAN)を介して既存のファジー・マッチング・アプリケーションと通信するデータ処理システムで実行するアプリケーション、すなわち、LAN上のローカル・アプリケーションとして、ワイド・エリア・ネットワーク(WAN)を介して既存のファジー・マッチング・アプリケーションと通信するデータ処理システムで実行するアプリケーション、すなわち、WAN上のリモート・アプリケーションとして、他の方法で既存のファジー・マッチング・アプリケーションとともに動作する別個のアプリケーション、スタンド・アロン・アプリケーション、またはそれらの組合せとして構成することができる。
例示の実施形態の範囲内で、音声表示は、トークンが話されるときのNLトークンのすべてまたは一部を表す音パターンである。音節は、音韻の構成単位(phonological building block)、すなわち、所与の言語の発話で使用される音であり、それは、その言語の1つまたは複数の母音を使用して表すことができる。
例示の実施形態によれば、トークンはNL入力から抽出される。実施形態は、1つまたは複数の別個の音声表示(別個の音声音)を決定し、それらが、一緒に、音声パターンを形成し、音声パターンがトークンを表す。例えば、例示のトークン「tomato」を表す1つの方法は、以下の場合であり、「tow」、「mah」、および「tow」が3つの音声表示のセットを形成し、それらが、一緒に、音声パターン「tow-mah-tow」を形成し、それが、トークン「tomato」を表す。例示のトークン「tomato」を表す別の例示の方法は、以下の場合であり、「tuh」、「may」、および「tow」が3つの音声表示の異なるセットを形成し、それらが、一緒に、第2の音声パターン「tuh-may-tow」を形成し、それが、さらに、トークン「tomato」を表す。
言い換えれば、トークンを与えられると、実施形態は、対応する音声表示のセットを使用して1つまたは複数の音声パターンを構築し、その結果、音声パターンのうちのいずれかが、所与のトークンを表すことができる可能性がある。
一実施形態は、トークンの音声パターンをリポジトリ、すなわち、音声リポジトリに格納する。時間とともに、異なる状況の下でいくつかのトークンとそのトークンのいくつかのインスタンスとが発生すると、音声リポジトリは、1つまたは複数のトークンに対応する1つまたは複数の音声パターンが格納されるようになる。
1つの実施形態では、トークンを与えられると、そのトークンに対応する音声パターンのセットが音声リポジトリ内で利用可能である。トークンの音声パターンがリポジトリ内で利用可能である場合、音声パターンが、そのトークンの音声パターンのセット内に抽出される。
別の実施形態では、音声構造において所与のトークンに類似するまたは同様の異なるトークンの音声パターンが、リポジトリ内で利用可能となり得る。一実施形態は、類似するトークンの音声パターンからトークンの音声パターンを計算する。
例えば、tomatoの音声パターンは利用可能でない場合があるが、「potato」の音声パターンはリポジトリ内で利用可能である場合がある。一実施形態は、2つのトークンについて、スペリング、スペリングの長さ、その中の母音の構成、その中の音声表示の数、その中の音声表示の順序、特定の音声表示の強調、またはこれらおよび他のそのような特徴の組合せを比較することによって、所与のトークンと、類似するトークンとの間の構造類似性を決定する。所与のトークンと、類似するトークンとの間の構造類似性が、類似性の閾値レベルを超えると、実施形態は、リポジトリからの類似するトークンの音声パターンを使用し、その音声パターンから所与のトークンの音声パターンを計算する。
一実施形態では、所与のトークンの音声パターンの計算は、音声表示を類似するトークンの音声パターンに追加すること、音声表示を類似するトークンの音声パターンから削除すること、類似するトークンの音声パターンの音声表示を異なる音声表示と取り替えること、類似するトークンの音声パターンの音声表示のシーケンスを変更すること、類似するトークンの音声パターンが話されるかまたは発音される期間を圧縮すること、類似するトークンの音声パターンが話されるかまたは発音される期間を拡大すること、類似するトークンの音声パターンの音声表示に強調を追加すること、類似するトークンの音声パターンの音声表示から強調を除去すること、類似するトークンの音声パターンの1つの音声表示から異なる音声表示に強調を変更すること、言語、方言、アクセント、コンテキスト、話者の特異性に応じてこれらおよび他の多くの態様を組み合わせること、などを含むことができる。
NL入力が提供される形式、例えば、テキスト形式、オーディオ形式、または本明細書で説明する他の形式に関係なく、一実施形態は、リポジトリからのトークンの音声パターンおよびリポジトリからの類似するトークンの音声パターンを使用してトークンに対応する音声パターンのセットを構築することができる。オーディオ形式であるNL入力からトークンが抽出される場合、トークンの音声パターンは、トークンのオーディオを構成要素音声表示にセグメント化することによって構築することもできる。
音声パターンがトークンに対して利用可能になると、一実施形態は、音声パターンの各音声表示に対応する音節を計算する。それにより、実施形態は、音声パターンを音節のシーケンスに変換する。音声表示の音節への変換は、音声表示に存在する音を、音節を発音することにより作られる音と一致させることによって、実行することができる。例えば、音声パターン「tow-mah-tow」は、音のシーケンス(
Figure 0007135084000001


Figure 0007135084000002

)、および
Figure 0007135084000003

を含む。それにより、トークンの音声パターンに対応する音節のシーケンスは、
Figure 0007135084000004

である。
このように動作して、実施形態は、トークンに対応する音声パターンごとに音節シーケンスを構築する。1つを超える音節シーケンスが、単一の音声パターンに対して可能であり得る。このように作成された音節シーケンスのセットは、音節シーケンスのマトリクスを形成する。
一実施形態は、既存のファジー・マッチング・アプリケーションを変更して、音節シーケンスのマトリクスをサポート入力としてNL入力と一緒に受け入れる。変更済ファジー・マッチング・アプリケーションは、マトリクスの音節シーケンスをファジー・マッチング・アルゴリズムで使用して、トークンに対応する適切な選定を識別する。音節シーケンスを使用して識別された選定は、音節シーケンスを使用せずに先行技術のファジー・マッチング・アルゴリズムのみを使用して識別された選定よりも高い精度を示す。
本明細書で説明する自然言語処理でのファジー・マッチングのための音声パターンの方法は、現在利用可能な方法では利用できない。本明細書で説明する一実施形態の方法は、デバイスまたはデータ処理システムで実行するように実装されると、NLPの技術分野におけるファジー・マッチング・アプリケーションの再現率特性を乱すことなくファジー・マッチング・アプリケーションの精度を改善するときのそのデバイスまたはデータ処理システムの機能の実質的な進歩を含む。
例示の実施形態は、単に例として、特定のタイプのNL、NL入力、文法、トークン、音声表示、音声パターン、音節、音節シーケンス、マトリクス、ファジー・マッチング・アルゴリズム、ファジー・マッチング・アプリケーション、デバイス、データ処理システム、環境、コンポーネントおよびアプリケーションに関して説明される。これらおよび他の同様のアーチファクトの特定の体現形(manifestation)は、本発明を限定するものではない。これらおよび他の同様のアーチファクトの適切な体現形は、例示の実施形態の範囲内で選び出すことができる。
さらに、例示の実施形態は、任意のタイプのデータ、データ・ソース、またはデータ・ネットワークを介したデータ・ソースへのアクセスに関して実施することができる。任意のタイプのデータ・ストレージ・デバイスは、本発明の範囲内で、データ処理システムでローカルに、またはデータ・ネットワークを介して、本発明の一実施形態にデータを提供することができる。一実施形態がモバイル・デバイスを使用して説明される場合、モバイル・デバイスで使用するのに適した任意のタイプのデータ・ストレージ・デバイスは、例示の実施形態の範囲内で、モバイル・デバイスでローカルにまたはデータ・ネットワークを介して、そのような実施形態にデータを提供することができる。
例示の実施形態は、単に例として、特定のコード、設計、アーキテクチャ、プロトコル、レイアウト、概略図、およびツールを使用して説明され、例示の実施形態を限定するものではない。さらに、例示の実施形態は、説明の明瞭さのために単に例として、特定のソフトウェア、ツール、およびデータ処理環境を使用するいくつかの事例で説明される。例示の実施形態は、他の類似するまたは同様に意図された構造、システム、アプリケーション、またはアーキテクチャとともに使用することができる。例えば、他の類似するモバイル・デバイス、構造、システム、アプリケーション、またはそのアーキテクチャが、本発明の範囲内で本発明のそのような実施形態とともに使用されてもよい。例示の実施形態は、ハードウェア、ソフトウェア、またはそれらの組合せで実施することができる。
本開示の例は、説明を明確にするためにのみ使用され、例示の実施形態を限定するものではない。追加のデータ、動作、アクション、タスク、アクティビティ、および操作を本開示から考えることができ、同じことが、例示の実施形態の範囲内で考えられる。
本明細書に列挙されたいずれの利点も単なる例であり、例示の実施形態に限定するように意図されていない。追加のまたは異なる利点が、特定の例示の実施形態で実現され得る。さらに、特定の例示の実施形態は、上述で列挙された利点のうちの一部もしくはすべてを有することがあり、または全く有していないこともある。
図を参照すると、特に、図1および図2を参照すると、これらの図は、例示の実施形態を実施することができるデータ処理環境の例示の図である。図1および図2は単なる例であり、異なる実施形態を実施することができる環境に関して限定を主張または意味するものではない。特定の実施態様は、以下の説明に基づいて図示の環境に多くの変更を行うことができる。
図1は、例示の実施形態を実施することができるデータ処理システムのネットワークのブロック図を示す。データ処理環境100は、例示の実施形態を実施することができるコンピュータのネットワークである。データ処理環境100はネットワーク102を含む。ネットワーク102は、データ処理環境100内で一緒に接続される様々なデバイスおよびコンピュータの間の通信リンクを提供するために使用される媒体である。ネットワーク102は、有線、無線の通信リンク、または光ファイバ・ケーブルなどの接続を含むことができる。
クライアントまたはサーバは、ネットワーク102に接続された特定のデータ処理システムの単なる例示の役割であり、これらのデータ処理システムの他の構成または役割を排除するものではない。サーバ104およびサーバ106は、ストレージ・ユニット108とともにネットワーク102に結合する。ソフトウェア・アプリケーションは、データ処理環境100内の任意のコンピュータ上で実行することができる。クライアント110、112、および114もネットワーク102に結合される。サーバ104もしくは106またはクライアント110、112、もしくは114などのデータ処理システムは、データを含むことができ、その上で実行するソフトウェア・アプリケーションまたはソフトウェア・ツールを有することができる。
単に一例として、およびそのようなアーキテクチャへのいかなる限定も意味することなく、図1は、一実施形態の例示の実施で使用できる特定の構成要素を示す。例えば、サーバ104および106、ならびにクライアント110、112、114は、例としてのみサーバおよびクライアントとして示されており、クライアント-サーバ・アーキテクチャへの限定を意味するものではない。別の例として、一実施形態は、図示のようにいくつかのデータ処理システムおよびデータ・ネットワークにわたって分散されてもよく、一方、別の実施形態は、例示の実施形態の範囲内で単一のデータ処理システムに実装されてもよい。データ処理システム104、106、110、112、および114はまた、クラスタ、パーティション、および一実施形態を実装するのに適する他の構成における例示のノードを表す。
デバイス132は、本明細書で説明するデバイスの一例である。例えば、デバイス132は、スマートフォン、タブレット・コンピュータ、ラップトップ・コンピュータ、固定もしくはポータブル形態のクライアント110、ウェアラブル・コンピューティング・デバイス、または任意の他の適切なデバイスの形態をとることができる。図1の別のデータ処理システムで実行するように説明されるいかなるソフトウェア・アプリケーションも、デバイス132で同様に実行するように構成することができる。図1の別のデータ処理システムにおいて格納または生成されるデータまたは情報は、デバイス132において同様に格納または生成されるように構成することができる。
アプリケーション105は、本明細書で説明する一実施形態を実装する。ファジー・マッチング・アプリケーション107は、NL入力のトークンに対応する正しい選定を識別するための追加の入力として音節シーケンスのマトリクスを受け入れるように変更されている変更済ファジー・マッチング・アルゴリズムを含む変更済ファジー・マッチング・アプリケーションである。音声リポジトリ109は、本明細書で説明するように、1つまたは複数の言語の1つまたは複数のトークンに関する1つまたは複数の音声パターンを含む。
サーバ104および106と、ストレージ・ユニット108と、クライアント110、112、および114と、デバイス132とは、有線接続、無線通信プロトコル、または他の適切なデータ接続を使用してネットワーク102に結合することができる。クライアント110、112、および114は、例えば、パーソナル・コンピュータまたはネットワーク・コンピュータとすることができる。
図示の例では、サーバ104は、ブート・ファイル、オペレーティング・システム・イメージ、およびアプリケーションなどのデータをクライアント110、112、および114に提供することができる。クライアント110、112、および114は、この例では、サーバ104にとってのクライアントとすることができる。クライアント110、112、114、またはそれらの組合せは、それ自体のデータ、ブート・ファイル、オペレーティング・システム・イメージ、およびアプリケーションを含むことができる。データ処理環境100は、追加のサーバ、クライアント、および図示されていない他のデバイスを含むことができる。
図示の例では、データ処理環境100はインターネットとすることができる。ネットワーク102は、伝送制御プロトコル/インターネット・プロトコル(TCP/IP)および他のプロトコルを使用して互いに通信するネットワークおよびゲートウェイの集合を表すことができる。インターネットの中心には、データおよびメッセージをルーティングする何千もの商用、政府、教育、および他のコンピュータ・システムを含む、主要なノードまたはホスト・コンピュータ間のデータ通信リンクのバックボーンがある。当然、データ処理環境100は、さらに、例えば、イントラネット、ローカル・エリア・ネットワーク(LAN)、またはワイド・エリア・ネットワーク(WAN)などのいくつかの異なるタイプのネットワークとして実装されてもよい。図1は、例として意図されており、異なる例示の実施形態に対するアーキテクチャの限定として意図されていない。
数ある用途の中で、データ処理環境100は、例示の実施形態を実施することができるクライアント-サーバ環境を実現するために使用することができる。クライアント-サーバ環境により、ソフトウェア・アプリケーションおよびデータは、ネットワークにわたって分散され、その結果、アプリケーションは、クライアント・データ処理システムとサーバ・データ処理システムとの間の対話機能を使用することによって機能することができる。データ処理環境100は、さらに、サービス指向アーキテクチャを使用することができ、ネットワークにわたって分散された相互運用可能なソフトウェア・コンポーネントは、コヒーレント・ビジネス・アプリケーションとして一緒にパッケージ化することができる。データ処理環境100は、さらに、クラウドの形態をとり、最小の管理労力またはサービスのプロバイダとの対話により迅速に供給および解消することができる、設定可能なコンピューティング・リソース(例えば、ネットワーク、ネットワーク帯域幅、サーバ、処理、メモリ、ストレージ、アプリケーション、仮想マシン、およびサービス)の共有プールへの便利でオン・デマンドのネットワーク・アクセスを可能にするためのサービス配布のクラウド・コンピューティング・モデルを使用することができる。
図2を参照すると、この図は、例示の実施形態を実施することができるデータ処理システムのブロック図を示す。データ処理システム200は、図1のサーバ104および106、またはクライアント110、112、および114、あるいはプロセスを実施するコンピュータ使用可能プログラム・コードまたは命令を例示の実施形態のために配置することができる別のタイプのデバイスなどのコンピュータの一例である。
データ処理システム200は、さらに、例示の実施形態のプロセスを実施するコンピュータ使用可能なプログラム・コードまたは命令を配置することができる図1のデータ処理システム132などのデータ処理システムまたはその構成を表す。データ処理システム200は、単に例としてコンピュータとして説明され、それに限定されない。図1のデバイス132などの他のデバイスの形態での実装は、本明細書で説明するデータ処理システム200の動作および機能の一般的説明から逸脱することなく、タッチ・インタフェースの追加などによってデータ処理システム200を変更してもよく、さらに、データ処理システム200から特定の図示の構成要素を削除してもよい。
図示の例では、データ処理システム200は、ノース・ブリッジおよびメモリ・コントローラ・ハブ(NB/MCH)202とサウス・ブリッジおよび入力/出力(I/O)コントローラ・ハブ(SB/ICH)204とを含むハブ・アーキテクチャを利用する。処理ユニット206、メイン・メモリ208、およびグラフィックス・プロセッサ210は、ノース・ブリッジおよびメモリ・コントローラ・ハブ(NB/MCH)202に結合される。処理ユニット206は、1つまたは複数のプロセッサを含むことができ、1つまたは複数の異種プロセッサ・システムを使用して実装されてもよい。処理ユニット206はマルチコア・プロセッサとすることができる。グラフィックス・プロセッサ210は、特定の実施態様ではアクセラレーテッド・グラフィック・ポート(AGP)を通してNB/MCH202に結合され得る。
図示の例では、ローカル・エリア・ネットワーク(LAN)・アダプタ212が、サウス・ブリッジおよびI/Oコントローラ・ハブ(SB/ICH)204に結合される。オーディオ・アダプタ216、キーボードおよびマウス・アダプタ220、モデム222、読出し専用メモリ(ROM)224、ユニバーサル・シリアル・バス(USB)および他のポート232、ならびにPCI/PCIeデバイス234は、バス238を通してサウス・ブリッジおよびI/Oコントローラ・ハブ204に結合される。ハード・ディスク・ドライブ(HDD)またはソリッド・ステート・ドライブ(SSD)226およびCD-ROM230は、バス240を通してサウス・ブリッジおよびI/Oコントローラ・ハブ204に結合される。PCI/PCIeデバイス234は、例えば、イーサネット(R)・アダプタ、アドイン・カード、およびノートブック・コンピュータ用PCカードを含むことができる。PCIはカード・バス・コントローラを使用するが、PCIeは使用しない。ROM224は、例えば、フラッシュ・バイナリ・入力/出力システム(BIOS)とすることができる。ハード・ディスク・ドライブ226およびCD-ROM230は、例えば、インテグレーティド・ドライブ・エレクトロニクス(IDE)、シリアル・アドバンスド・テクノロジ・アタッチメント(SATA)・インタフェース、または外付けSATA(eSATA)およびマイクロSATA(mSATA)などの変形を使用することができる。スーパーI/O(SIO)デバイス236は、バス238を通してサウス・ブリッジおよびI/Oコントローラ・ハブ(SB/ICH)204に結合され得る。
メイン・メモリ208、ROM224、またはフラッシュ・メモリ(図示せず)などのメモリは、コンピュータ使用可能なストレージ・デバイスのいくつかの例である。ハード・ディスク・ドライブまたはソリッド・ステート・ドライブ226、CD-ROM230、および他の同様に使用可能なデバイスは、コンピュータ使用可能な記憶媒体を含むコンピュータ使用可能なストレージ・デバイスのいくつかの例である。
オペレーティング・システムは処理ユニット206上で作動する。オペレーティング・システムは、図2のデータ処理システム200内の様々な構成要素の制御を調整および実現する。オペレーティング・システムは、限定はしないが、サーバ・システム、パーソナル・コンピュータ、およびモバイル・デバイスを含む任意のタイプのコンピューティング・プラットフォームのための市販のオペレーティング・システムとすることができる。オブジェクト指向または他のタイプのプログラミング・システムは、オペレーティング・システムとともに動作し、データ処理システム200上で実行するプログラムまたはアプリケーションからオペレーティング・システムに呼出しを行うことができる。
オペレーティング・システム、オブジェクト指向プログラミング・システム、および図1のアプリケーション105または変更済ファジー・マッチング・アプリケーション107あるいはその両方などのアプリケーションまたはプログラムのための命令は、ハード・ディスク・ドライブ226のコード226Aの形態などでストレージ・デバイスに配置され、処理ユニット206による実行のためにメイン・メモリ208などの1つまたは複数のメモリのうちの少なくとも1つにロードされ得る。例示の実施形態のプロセスは、コンピュータ実装命令を使用して処理ユニット206で実行することができ、コンピュータ実装命令は、例えば、メイン・メモリ208、読出し専用メモリ224などのメモリ、または1つもしくは複数の周辺デバイスに配置することができる。
さらに、ある場合には、コード226Aは、同様のコード201Cがストレージ・デバイス201Dに格納されているリモート・システム201Bからネットワーク201Aを介してダウンロードされてもよい。別の場合には、コード226Aは、ネットワーク201Aを介してリモート・システム201Bにダウンロードされてもよく、ダウロードされたコード201Cはストレージ・デバイス201Dに格納される。
図1~図2のハードウェアは、実施態様に応じて変わってもよい。フラッシュ・メモリ、同等の不揮発性メモリ、または光ディスク・ドライブなどのような他の内部ハードウェアまたは周辺デバイスが、図1~図2に示されたハードウェアに加えてまたはその代わりに使用されてもよい。加えて、例示の実施形態のプロセスは、マルチプロセッサ・データ処理システムに適用されてもよい。
いくつかの例示的な例では、データ処理システム200は、携帯情報端末(PDA)とすることができ、携帯情報端末(PDA)は、一般に、オペレーティング・システム・ファイルまたはユーザ生成データあるいはその両方を格納するための不揮発性メモリを備えるようにフラッシュ・メモリを用いて構成される。バス・システムは、システム・バス、I/Oバス、およびPCIバスなどの1つまたは複数のバスを含むことができる。当然、バス・システムは、ファブリックまたはアーキテクチャに結びつけられた様々な構成要素またはデバイス間のデータの移送を可能にする任意のタイプの通信ファブリックまたはアーキテクチャを使用して実装することができる。
通信ユニットは、データを送受信するために使用される1つまたは複数のデバイス、例えば、モデムまたはネットワーク・アダプタなどを含むことができる。メモリは、例えば、メイン・メモリ208、またはノース・ブリッジおよびメモリ・コントローラ・ハブ202に見いだされるキャッシュなどのキャッシュとすることができる。処理ユニットは、1つまたは複数のプロセッサまたはCPUを含むことができる。
図1~図2における図示の例および上述の例は、アーキテクチャの限定を暗に示すものではない。例えば、データ処理システム200は、モバイルまたはウェアラブル・デバイスの形態をとることに加えて、タブレット・コンピュータ、ラップトップ・コンピュータ、または電話デバイスとすることもできる。
コンピュータまたはデータ処理システムが、仮想マシン、仮想デバイス、または仮想構成要素として説明される場合、仮想マシン、仮想デバイス、または仮想構成要素は、データ処理システム200に示された一部またはすべての構成要素の仮想化された体現形を使用するデータ処理システム200の方法で動作する。例えば、仮想マシン、仮想デバイス、または仮想構成要素において、処理ユニット206は、ホスト・データ処理システムにおいて利用可能な全数またはある数のハードウェア処理ユニット206の仮想化インスタンスとして体現形され、メイン・メモリ208は、ホスト・データ処理システムにおいて利用可能であり得るすべてまたは一部のメイン・メモリ208の仮想化インスタンスして体現形され、ディスク226は、ホスト・データ処理システムにおいて利用可能であり得るすべてまたは一部のディスク226の仮想化インスタンスとして体現形される。そのような場合のホスト・データ処理システムは、データ処理システム200によって表される。
図3を参照すると、この図は、例示の実施形態による自然言語処理におけるファジー・マッチングのための音声パターンの例示の構成のブロック図を示す。アプリケーション302は、図1のアプリケーション105の一例である。ファジー・マッチング・アプリケーション304は、図1の変更済ファジー・マッチング・アプリケーション107の一例である。ファジー・マッチング・アプリケーション304は、一実施形態によれば、先行技術のファジー・マッチング・アルゴリズム304Aと音声入力処理コンポーネント304Bとを含む。音声リポジトリ306は、図1の音声リポジトリ109の一例である。
NL入力308は、本明細書で説明するように、1つまたは複数の形態のNLデータを含む。NL入力308は、1つまたは複数のトークン、例えば、単語を含む。
アプリケーション302は、NL入力308を適切に解析してNL入力308からトークンを抽出する。音声リポジトリ306からの1つまたは複数の音声パターンまたは使用可能な場合NL入力308からのオーディオ・データあるいはその両方を使用して、アプリケーション302は、トークンに対応する1つまたは複数の音声パターンを構築する。アプリケーション302は、各音声パターンに対応する1つまたは複数の音節シーケンスを計算し、音節シーケンス・マトリクス310を形成する。音節シーケンス、例えば、マトリクス310内の音節シーケンス312は、音節312A、312B…312Cなどの1つまたは複数の音節のシーケンスを含む。
音声入力処理コンポーネント304Bは、1つの入力としてNL入力308と、追加入力としてアプリケーション302からのマトリクス310とを受け取る。コンポーネント304Bは、ファジー・マッチング・アルゴリズム304Aに、所与のトークンに対応する選定/選択識別プロセスにおいて音節シーケンスを使用させる。ファジー・マッチング・アプリケーション304は、ファジー・マッチング・アルゴリズム304Aのみから出力された選定と比較して、より高い精度および少なくとも同じ再現率をもつ選定314を出力する。
1つの実施形態では、変更済ファジー・マッチング・アプリケーション304の選定出力を使用して、アプリケーション302を訓練する。例えば、選定314が所与のトークンにとってほぼ確実な選定であると別個のプロセス(図示せず)が決定する場合、機械学習フィードバック316により、アプリケーション302は、閾値の対応度内で選定314に対応する音声パターンを増加させるかまたは強化し、その結果、それらの音声パターンは、トークンの後続の発生において同じまたは同様のトークンに対して再度生成される(または比較的大きい重みが与えられる)。閾値の対応度内の選定314に対応しない音声パターンが構築されていた場合、フィードバック316により、アプリケーション302は、それらの音声パターンを減少させるかまたは弱め、その結果、それらの音声パターンは、トークンの後続の発生において同じまたは同様のトークンに対して生成されない(または比較的小さい重みが与えられる)。
図4を参照すると、この図は、例示の実施形態による自然言語処理におけるファジー・マッチングのための音声パターンの例示のアプリケーションのブロック図を示す。アプリケーション402は、図3のアプリケーション302として使用することができる。
コンポーネント404は、例えば入力308の言語の文法に従ってNL入力308を解析することによってNL入力からトークンを抽出する。コンポーネント406は、本明細書で説明する任意の1つまたは複数の方法でトークンの音声パターンを計算する。
コンポーネント408は、音声パターンに対応する音節シーケンスを計算する。コンポーネント408は、トークンに対応する音節シーケンスのマトリクス、例えばマトリクス310を出力する。
コンポーネント410は、図3の音声入力処理コンポーネント304Bとして動作するように構成することができる。コンポーネント410は、変更済ファジー・マッチング・アプリケーションで、例えばファジー・マッチング・アプリケーション304で使用するために音節シーケンスのマトリクスを処理する。
コンポーネント412は、変更済ファジー・マッチング・アプリケーションによって行われた選定のフィードバック、例えばフィードバック316を受け取る。コンポーネント414は、選定をほぼ確実(NL入力308のコンテキストにおける有効な選定)として、またはありそうもない(NL入力308のコンテキストにおける無効の選定)として分類するための適切なプロセスを実装する。
コンポーネント416は、ほぼ確実な選定に対応するトークンのこれらの音声パターンを強化する。コンポーネント418は、ありそうもない選定に対応するトークンの音声パターンを弱める。コンポーネント420は、音声リポジトリを、例えば、新しい音声パターンを追加すること、音声パターンを強化すること、音声パターンを弱めること、音声パターンを除去すること、またはさもなければリポジトリの音声パターンを操作することによって管理する。
図5を参照すると、この図は、例示の実施形態による自然言語処理におけるファジー・マッチングのための音声パターンの例示のプロセスのフローチャートを示す。プロセス500は、図4のアプリケーション402に実装することができる。
アプリケーションは、NL入力を受け取る(ブロック502)。アプリケーションは、入力から発話の単位、すなわち、トークンを選定する(ブロック504)。選定されたトークンに対して、アプリケーションは、ブロック506、508、および510のうちの1つまたは複数を実行する。例えば、アプリケーションは、トークンの音声パターンが音声リポジトリに存在するかどうかを決定すること(ブロック506)、アプリケーションは、類似するトークンの音声パターンがリポジトリに存在するかどうかを決定すること(ブロック508)、またはアプリケーションは、NL入力のトークンの実際のまたは推定されたオーディオに基づいてトークンの音声パターンを計算すること(ブロック510)、あるいはその組合せを行う。アプリケーションがNL入力のトークンの実際のまたは推定されたオーディオに基づいてトークンの音声パターンを計算するためにブロック510を実行する場合/とき、アプリケーションは、計算された音声パターンを用いて音声リポジトリを更新する(ブロック512)。
トークンの音声パターンがリポジトリに存在する(ブロック506の「はい」の経路の)場合、アプリケーションは、音声パターンに対応する1つまたは複数の音節シーケンスを計算する(ブロック514)。トークンの音声パターンがリポジトリに存在しない(ブロック506の「いいえ」の経路の)場合、アプリケーションはブロック508に進む。
類似するトークンの音声パターンがリポジトリに存在する(ブロック508の「はい」の経路の)場合、アプリケーションは、類似するトークンの音声パターンに基づいてトークンの音声パターンを計算する(ブロック516)。アプリケーションは、ブロック512においてトークンの計算された音声パターンを用いてリポジトリを更新する。
アプリケーションは、トークンのより多くの音声パターンを同様に計算する必要があるかどうかを決定する(ブロック518)。トークンのより多くの音声パターンを計算する必要がある(ブロック518の「はい」の経路の)場合、アプリケーションは、ブロック506、508、および510のうちのいずれかに戻る。トークンに対して音声パターンをこれ以上計算する必要がない(ブロック518の「いいえ」の経路の)場合、アプリケーションは、計算された音節シーケンスのマトリクスを生成する(ブロック520)。オプションとして、アプリケーションは、変更済ファジー・マッチング・アプリケーションへの追加入力として消費するためにマトリクスを前処理することができる(ブロック522)。
アプリケーションは、マトリクスを追加入力として変更済ファジー・マッチング・アプリケーションに提供する(ブロック524)。アプリケーションは、変更済ファジー・マッチング・アプリケーションに、改善された精度によるトークンに対応する選定を出力させる(ブロック526)。アプリケーションは、その後、プロセス500を終了することができる。
トークンに対して音声パターンをこれ以上計算する必要がない(ブロック518の「いいえ」の経路の)場合、アプリケーションは、さらに、より多くのトークンをNL入力から処理する必要があるかどうかを並列して決定することができる(ブロック528)。より多くのトークンをNL入力から処理する必要がある(ブロック528の「はい」の経路の)場合、アプリケーションは、ブロック504に戻り、別のトークンを選定する。トークンをNL入力からこれ以上処理する必要がない(ブロック528の「いいえ」の経路の)場合、アプリケーションは、その後、プロセス500を終了する。
図6を参照すると、この図は、例示の実施形態によるNLトークンの音声パターン選定を改善するための機械学習の例示のプロセスのフローチャートを示す。プロセス600は、図4のアプリケーション402に実装することができる。
アプリケーションは、変更済ファジー・マッチング・アプリケーションによって行われた、トークンに対応する選定を受け取る(ブロック602)。アプリケーションは、NL入力コンテキストが与えられると、選定がほぼ確実であるかどうかを決定する(ブロック604)。選定がほぼ確実である(ブロック604の「ほぼ確実な」経路の)場合、アプリケーションは、選定に対応するトークンのこれらの音声パターンを強化する(ブロック606)。アプリケーションは、その後、プロセス600を終了する。
選定がありそうもない(ブロック604の「ありそうもない」経路の)場合、アプリケーションは、選定に対応するトークンのこれらの音声パターンを弱める(ブロック608)。アプリケーションは、その後、プロセス600を終了する。
このようにして、コンピュータ実装方法、システムまたは装置、およびコンピュータ・プログラム製品が、自然言語処理および他の関連する特徴、機能、または動作におけるファジー・マッチングのための音声パターンの例示の実施形態において提供される。一実施形態またはその一部が、あるタイプのデバイスに関して説明されている場合、コンピュータ実装方法、システムもしくは装置、コンピュータ・プログラム製品、またはその一部は、そのタイプのデバイスの適切で類似する体現形とともに使用するように適合または構成される。
一実施形態がアプリケーションに実装されるとして説明される場合、サービスとしてのソフトウェア(SaaS)モデルのアプリケーションの送出は、例示の実施形態の範囲内で意図される。SaaSモデルでは、一実施形態を実装するアプリケーションの機能は、クラウド・インフラストラクチャのアプリケーションを実行することによってユーザに提供される。ユーザは、様々なクライアント・デバイスを使用して、ウェブ・ブラウザ(例えば、ウェブ・ベース電子メール)または他の軽量クライアント・アプリケーションなどのシン・クライアント・インタフェースを通してアプリケーションにアクセスすることができる。ユーザは、クラウド・インフラストラクチャのネットワーク、サーバ、オペレーティング・システム、またはストレージを含む基礎をなすクラウド・インフラストラクチャを管理または制御しない。ある場合には、ユーザは、SaaSアプリケーションの機能を管理または制御することさえできない。他の場合には、アプリケーションのSaaS実施態様は、限定されたユーザ固有のアプリケーション構成設定のあり得る例外を許可する場合がある。
本発明は、任意の可能な技術的詳細レベルの統合における、システム、方法、またはコンピュータ・プログラム製品、あるいはその組合せとすることができる。コンピュータ・プログラム製品は、プロセッサに本発明の態様を実施させるためのコンピュータ可読プログラム命令を有する1つのコンピュータ可読記憶媒体(または複数の媒体)を含むことができる。
コンピュータ可読記憶媒体は、命令実行デバイスによる使用のための命令を保持および格納することができる有形デバイスとすることができる。コンピュータ可読記憶媒体は、例えば、限定はしないが、電子ストレージ・デバイス、磁気ストレージ・デバイス、光ストレージ・デバイス、電磁気ストレージ・デバイス、半導体ストレージ・デバイス、または前述のものの任意の適切な組合せとすることができる。コンピュータ可読記憶媒体のより具体的な例の非網羅的なリストには、以下のもの、すなわち、ポータブル・コンピュータ・ディスケット、ハード・ディスク、ランダム・アクセス・メモリ(RAM)、読出し専用メモリ(ROM)、消去可能プログラマブル読出し専用メモリ(EPROMまたはフラッシュ・メモリ)、スタティック・ランダム・アクセス・メモリ(SRAM)、ポータブル・コンパクト・ディスク読出し専用メモリ(CD-ROM)、デジタル多用途ディスク(DVD)、メモリ・スティック、フロッピー(R)・ディスク、パンチカードまたは命令が記録された溝内の隆起構造などの機械的符号化デバイス、および前述のものの任意の適切な組合せが含まれる。限定はしないが、本明細書で使用されるコンピュータ可読ストレージ・デバイスを含むコンピュータ可読記憶媒体は、電波もしくは他の自由に伝播する電磁波、導波路もしくは他の伝送媒体を通って伝搬する電磁波(例えば、光ファイバ・ケーブルを通過する光パルス)、またはワイヤを通して伝送される電気信号などのそれ自体が一過性信号であると解釈されるべきではない。
本明細書に記載されるコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体からそれぞれのコンピューティング/処理デバイスに、あるいはネットワーク、例えば、インターネット、ローカル・エリア・ネットワーク、ワイド・エリア・ネットワーク、または無線ネットワーク、あるいはその組合せを介して外部コンピュータまたは外部ストレージ・デバイスにダウンロードされてもよい。ネットワークは、銅伝送ケーブル、光伝送ファイバ、無線伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイ・コンピュータ、またはエッジ・サーバ、あるいはその組合せを含むことができる。各コンピューティング/処理デバイスのネットワーク・アダプタ・カードまたはネットワーク・インタフェースは、ネットワークからのコンピュータ可読プログラム命令を受け取り、コンピュータ可読プログラム命令を、それぞれのコンピューティング/処理デバイス内のコンピュータ可読記憶媒体に格納するために転送する。
本発明の動作を実施するためのコンピュータ可読プログラム命令は、アセンブラ命令、命令セット・アーキテクチャ(ISA)命令、機械命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、集積回路のための構成データ、またはSmalltalk(R)、C++などのようなオブジェクト指向プログラミング言語、および「C」プログラミング言語もしくは同様のプログラミング言語などの手続き型プログラミング言語を含む1つまたは複数のプログラミング言語の任意の組合せで書かれたソース・コードもしくはオブジェクト・コードのいずれかとすることができる。コンピュータ可読プログラム命令は、完全にユーザのコンピュータ上で、部分的にユーザのコンピュータ上で、スタンドアロン・ソフトウェア・パッケージとして、部分的にユーザのコンピュータ上でおよび部分的にリモート・コンピュータ上で、または完全にリモート・コンピュータもしくはサーバ上で実行することができる。後者のシナリオでは、リモート・コンピュータは、ローカル・エリア・ネットワーク(LAN)もしくはワイド・エリア・ネットワーク(WAN)を含む任意のタイプのネットワークを通してユーザのコンピュータに接続されてもよく、またはその接続が外部コンピュータに(例えば、インターネット・サービス・プロバイダを使用してインターネットを通して)行われてもよい。いくつかの実施形態では、例えば、プログラマブル論理回路、フィールド・プログラマブル・ゲート・アレイ(FPGA)、またはプログラマブル論理アレイ(PLA)を含む電子回路は、本発明の態様を実行するために、電子回路を個人専用にするためのコンピュータ可読プログラム命令の状態情報を利用することによってコンピュータ可読プログラム命令を実行することができる。
本発明の態様は、本発明の実施形態による方法、装置(システム)、およびコンピュータ・プログラム製品のフローチャートまたはブロック図あるいはその両方を参照して本明細書に記載されている。フローチャートまたはブロック図あるいはその両方の各ブロック、およびフローチャートまたはブロック図あるいはその両方におけるブロックの組合せは、コンピュータ可読プログラム命令によって実現され得ることが理解されるであろう。
これらのコンピュータ可読プログラム命令は、コンピュータまたは他のプログラマブル・データ処理装置のプロセッサを介して実行される命令がフローチャートまたはブロック図あるいはその両方の1つまたは複数のブロック中に指定された機能/動作を実現するための手段を作り出すように、汎用コンピュータ、専用コンピュータ、または他のプログラマブル・データ処理装置のプロセッサに提供されて機械を作り出すものであってよい。これらのコンピュータ可読プログラム命令はまた、命令が格納されたコンピュータ可読記憶媒体がフローチャートまたはブロック図あるいはその両方の1つまたは複数のブロック中に指定された機能/動作の態様を実現する命令を含む製品を構成するように、コンピュータ、プログラマブル・データ処理装置、または他のデバイス、あるいはその組合せに対し、特定の方式で機能するように指示することができるコンピュータ可読記憶媒体に格納されてもよい。
コンピュータ可読プログラム命令はまた、コンピュータ、他のプログラマブル装置、または他のデバイス上で実行される命令がフローチャートまたはブロック図あるいはその両方の1つまたは複数のブロック中に指定された機能/動作を実施するように、コンピュータ、他のプログラマブル・データ処理装置、または他のデバイスにロードされて、一連の動作ステップをコンピュータ、他のプログラマブル装置、または他のデバイス上で実行させて、コンピュータ実装プロセスを生じさせてもよい。
図のフローチャートおよびブロック図は、本発明の様々な実施形態によるシステム、方法、およびコンピュータ・プログラム製品の可能な実施態様のアーキテクチャ、機能、および動作を示す。これに関して、フローチャートまたはブロック図の各ブロックは、指定された論理機能を実施するための1つまたは複数の実行可能命令を含む命令のモジュール、セグメント、または一部を表すことができる。いくつかの代替実施態様では、ブロックに示された機能は、図に示された順序から外れて行われることがある。例えば、連続して示された2つのブロックは、実際には、実質的に同時に実行されることがあり、またはブロックは、時には、必要とされる機能に応じて逆順で実行されることがある。ブロック図またはフローチャートあるいはその両方の各ブロック、およびブロック図またはフローチャートあるいはその両方のブロックの組合せは、指定された機能もしくは動作を実行する専用ハードウェア・ベース・システムによって実施されてもよく、または専用ハードウェアとコンピュータ命令の組合せを実行してもよいことにも留意されたい。

Claims (25)

  1. 自然言語(NL)入力からトークンを抽出することと、
    前記トークンに対応する音声パターンを計算することであり、前記音声パターンは、前記トークンが話されるときに前記トークンの一部を表す音パターンを含む、前記計算することと、
    前記音声パターンのデータから新しいデータを作成することであり、前記新しいデータが、前記音声パターンに対応する音節シーケンスを含む、前記作成することと、
    前記トークンに対応する音節シーケンスのマトリクスに前記新しいデータを格納することによってデータ・ストレージ・デバイスの状態を変更することと、
    プロセッサおよびメモリを使用してファジー・マッチング・アルゴリズムを実行することによって、前記トークンに対応するオプションを選定することであり、前記選定することが前記マトリクス内の音節シーケンスに基づく、前記選定することと
    を含む方法。
  2. 前記音声パターンに対応する第2の音節シーケンスを計算することと、
    前記第2の音節シーケンスを前記マトリクスにセーブすることと
    をさらに含む、請求項1に記載の方法。
  3. 音声リポジトリ内の格納された音声パターンが前記トークンに対応するかどうかを決定することと、
    前記格納された音声パターンが前記トークンに対応することに応答して、前記格納された音声パターンを前記音声パターンとして選定することと
    をさらに含む、請求項1に記載の方法。
  4. 前記音声パターンを形成するために、音声リポジトリ内の第2のトークンに対応する格納された音声パターンを変更することであり、前記第2のトークンが、閾値よりも大きい前記トークンとの構造類似度を有する前記トークンに相当する、前記変更すること
    をさらに含む、請求項1に記載の方法。
  5. 少なくとも閾値の類似度が前記トークンのスペリングと前記第2のトークンのスペリングとの間に存在するので、構造類似性が存在する、請求項4に記載の方法。
  6. 少なくとも閾値の類似度が前記トークンのスペリングの長さと前記第2のトークンのスペリングの長さとの間に存在するので、構造類似性が存在する、請求項4に記載の方法。
  7. 少なくとも閾値の類似度が前記トークンの母音のシーケンスと前記第2のトークンの母音のシーケンスとの間に存在するので、構造類似性が存在する、請求項4に記載の方法。
  8. 前記音パターンが音声表示を含み、少なくとも閾値の類似度が前記トークンのいくつかの音声表示と前記第2のトークンのいくつかの音声表示との間に存在するので、構造類似性が存在する、請求項4に記載の方法。
  9. 前記音パターンが音声表示を含み、少なくとも閾値の類似度が前記トークンの音声表示の順序と前記第2のトークンの音声表示の順序との間に存在するので、構造類似性が存在する、請求項4に記載の方法。
  10. 前記音パターンが音声表示を含み、少なくとも閾値の類似度が前記トークンの前記音声表示の強調と前記第2のトークンの前記音声表示の強調との間に存在するので、構造類似性が存在する、請求項4に記載の方法。
  11. 第2の音パターンを第2の音声パターンに追加することによって、前記第2の音声パターンから前記音声パターンを計算すること
    をさらに含む、請求項1に記載の方法。
  12. 第2の音声パターンから第2の音パターンを除去することによって前記第2の音声パターンから前記音声パターンを計算すること
    をさらに含む、請求項1に記載の方法。
  13. 第2の音声パターンの第2の音パターンを前記音パターンと取り替えることによって前記第2の音声パターンから前記音声パターンを計算すること
    をさらに含む、請求項1に記載の方法。
  14. 第2の音声パターンの音パターンのシーケンスを変更することによって前記第2の音声パターンから前記音声パターンを計算すること
    をさらに含む、請求項1に記載の方法。
  15. 第2の音声パターンの第2の音パターンの期間を変更することによって前記第2の音声パターンから前記音声パターンを計算すること
    をさらに含む、請求項1に記載の方法。
  16. 第2の音声パターンの第2の音パターンの強調を変更することによって、前記第2の音声パターンから前記音声パターンを計算すること
    をさらに含む、請求項1に記載の方法。
  17. 前記トークンに対応する音声パターンのセットを計算することであり、前記音声パターンが前記音声パターンのセットのメンバである、前記計算すること
    をさらに含む、請求項1に記載の方法。
  18. 前記トークンが言語の方言で話されるとき、前記音パターンが前記トークンの一部を表す、請求項1に記載の方法。
  19. 前記トークンが言語のアクセントを伴って話されるとき、前記音パターンが前記トークンの一部を表す、請求項1に記載の方法。
  20. 前記トークンが、話者の発話特異性をもつ言語で話されるとき、前記音パターンが前記トークンの一部を表す、請求項1に記載の方法。
  21. 前記トークンが、前記NL入力内に発話に関しての意味のある最短単位を含む、請求項1に記載の方法。
  22. コンピュータ可読ストレージ・デバイスを含むコンピュータ使用可能プログラム製品であって、プログラム命令が前記ストレージ・デバイスに格納され、前記格納されたプログラム命令が、
    自然言語(NL)入力からトークンを抽出するためのプログラム命令と、
    前記トークンに対応する音声パターンを計算するためのプログラム命令であり、前記音声パターンは、前記トークンが話されるときに前記トークンの一部を表す音パターンを含む、前記プログラム命令と、
    前記音声パターンのデータから新しいデータを作成するためのプログラム命令あり、前記新しいデータが、前記音声パターンに対応する音節シーケンスを含む、前記プログラム命令と、
    前記トークンに対応する音節シーケンスのマトリクスに前記新しいデータを格納することによってデータ・ストレージ・デバイスの状態を変更するためのプログラム命令と、
    プロセッサおよびメモリを使用してファジー・マッチング・アルゴリズムを実行することによって、前記トークンに対応するオプションを選定するためのプログラム命令であり、前記選定することが前記マトリクス内の音節シーケンスに基づく、前記プログラム命令と
    を含む、コンピュータ使用可能プログラム製品。
  23. コンピュータ使用可能コードが、データ処理システムのコンピュータ可読ストレージ・デバイスに格納され、前記コンピュータ使用可能コードが、リモート・データ処理システムからネットワークを介して転送される、請求項22に記載のコンピュータ使用可能プログラム製品。
  24. コンピュータ使用可能コードが、サーバ・データ処理システムのコンピュータ可読ストレージ・デバイスに格納され、前記コンピュータ使用可能コードが、リモート・データ処理システムに関連するコンピュータ可読ストレージ・デバイスで使用するためにネットワークを介して前記リモート・データ処理システムにダウロードされる、請求項22に記載のコンピュータ使用可能プログラム製品。
  25. コンピュータ・システムであって、請求項1ないし21のいずれかに記載の方法を実行するために、プロセッサ、コンピュータ可読メモリ、およびコンピュータ可読ストレージ・デバイス、ならびに前記メモリを介した前記プロセッサによる実行のための前記コンピュータ可読ストレージ・デバイスに格納されたプログラム命令を含むコンピュータ・システム。
JP2020524106A 2017-11-15 2018-10-31 自然言語処理におけるファジー・マッチングのための音声パターン Active JP7135084B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US15/813,416 2017-11-15
US15/813,416 US10546062B2 (en) 2017-11-15 2017-11-15 Phonetic patterns for fuzzy matching in natural language processing
PCT/IB2018/058521 WO2019097335A1 (en) 2017-11-15 2018-10-31 Phonetic patterns for fuzzy matching in natural language processing

Publications (2)

Publication Number Publication Date
JP2021503097A JP2021503097A (ja) 2021-02-04
JP7135084B2 true JP7135084B2 (ja) 2022-09-12

Family

ID=66433281

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020524106A Active JP7135084B2 (ja) 2017-11-15 2018-10-31 自然言語処理におけるファジー・マッチングのための音声パターン

Country Status (6)

Country Link
US (2) US10546062B2 (ja)
JP (1) JP7135084B2 (ja)
CN (1) CN111328416B (ja)
DE (1) DE112018005844B4 (ja)
GB (1) GB2585492B (ja)
WO (1) WO2019097335A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10546062B2 (en) * 2017-11-15 2020-01-28 International Business Machines Corporation Phonetic patterns for fuzzy matching in natural language processing
US11568142B2 (en) * 2018-06-04 2023-01-31 Infosys Limited Extraction of tokens and relationship between tokens from documents to form an entity relationship map
CN114927128B (zh) * 2022-04-21 2024-08-27 清华大学 语音关键词的检测方法、装置、电子设备及可读存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003088209A1 (fr) 2002-04-12 2003-10-23 Mitsubishi Denki Kabushiki Kaisha Systeme de navigation de voiture et dispositif de reconnaissance vocale de ce systeme

Family Cites Families (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5794194A (en) * 1989-11-28 1998-08-11 Kabushiki Kaisha Toshiba Word spotting in a variable noise level environment
US6236964B1 (en) * 1990-02-01 2001-05-22 Canon Kabushiki Kaisha Speech recognition apparatus and method for matching inputted speech and a word generated from stored referenced phoneme data
JP2001100776A (ja) * 1999-09-30 2001-04-13 Arcadia:Kk 音声合成装置
US8392188B1 (en) * 1999-11-05 2013-03-05 At&T Intellectual Property Ii, L.P. Method and system for building a phonotactic model for domain independent speech recognition
US7177795B1 (en) * 1999-11-10 2007-02-13 International Business Machines Corporation Methods and apparatus for semantic unit based automatic indexing and searching in data archive systems
US6973427B2 (en) * 2000-12-26 2005-12-06 Microsoft Corporation Method for adding phonetic descriptions to a speech recognition lexicon
US7103542B2 (en) * 2001-12-14 2006-09-05 Ben Franklin Patent Holding Llc Automatically improving a voice recognition system
US7089188B2 (en) * 2002-03-27 2006-08-08 Hewlett-Packard Development Company, L.P. Method to expand inputs for word or document searching
EP1505572B1 (en) * 2002-05-06 2006-03-08 Prous Institute For Biomedical Research S.A. Voice recognition method
DE10306022B3 (de) * 2003-02-13 2004-02-19 Siemens Ag Dreistufige Einzelworterkennung
US20060064177A1 (en) * 2004-09-17 2006-03-23 Nokia Corporation System and method for measuring confusion among words in an adaptive speech recognition system
WO2007027989A2 (en) 2005-08-31 2007-03-08 Voicebox Technologies, Inc. Dynamic speech sharpening
US8626506B2 (en) * 2006-01-20 2014-01-07 General Motors Llc Method and system for dynamic nametag scoring
WO2008084476A2 (en) 2007-01-09 2008-07-17 Avraham Shpigel Vowel recognition system and method in speech to text applications
CN101689364B (zh) * 2007-07-09 2011-11-23 富士通株式会社 声音识别装置和声音识别方法
US8831946B2 (en) * 2007-07-23 2014-09-09 Nuance Communications, Inc. Method and system of indexing speech data
US9405823B2 (en) * 2007-07-23 2016-08-02 Nuance Communications, Inc. Spoken document retrieval using multiple speech transcription indices
US20090037403A1 (en) 2007-07-31 2009-02-05 Microsoft Corporation Generalized location identification
US8775441B2 (en) * 2008-01-16 2014-07-08 Ab Initio Technology Llc Managing an archive for approximate string matching
CN101533398A (zh) * 2008-03-16 2009-09-16 徐文新 模式匹配索引查找方法
US20110106792A1 (en) 2009-11-05 2011-05-05 I2 Limited System and method for word matching and indexing
WO2011068170A1 (ja) * 2009-12-04 2011-06-09 ソニー株式会社 検索装置、検索方法、及び、プログラム
CN102770863B (zh) * 2010-02-24 2014-12-17 三菱电机株式会社 检索装置以及检索方法
US9418152B2 (en) * 2011-02-09 2016-08-16 Nice-Systems Ltd. System and method for flexible speech to text search mechanism
KR101231438B1 (ko) * 2011-05-25 2013-02-07 엔에이치엔(주) 외래어 발음 검색 서비스를 제공하는 검색결과 제공 시스템 및 방법
US9164983B2 (en) 2011-05-27 2015-10-20 Robert Bosch Gmbh Broad-coverage normalization system for social media language
US8521539B1 (en) * 2012-03-26 2013-08-27 Nuance Communications, Inc. Method for chinese point-of-interest search
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
CN103970798B (zh) * 2013-02-04 2019-05-28 商业对象软件有限公司 数据的搜索和匹配
US9652511B2 (en) 2013-03-13 2017-05-16 International Business Machines Corporation Secure matching supporting fuzzy data
US9594742B2 (en) * 2013-09-05 2017-03-14 Acxiom Corporation Method and apparatus for matching misspellings caused by phonetic variations
US9384731B2 (en) * 2013-11-06 2016-07-05 Microsoft Technology Licensing, Llc Detecting speech input phrase confusion risk
US9135911B2 (en) 2014-02-07 2015-09-15 NexGen Flight LLC Automated generation of phonemic lexicon for voice activated cockpit management systems
JP6400936B2 (ja) * 2014-04-21 2018-10-03 シノイースト・コンセプト・リミテッド 音声検索方法、音声検索装置、並びに、音声検索装置用のプログラム
CN105632499B (zh) * 2014-10-31 2019-12-10 株式会社东芝 用于优化语音识别结果的方法和装置
CN104464736B (zh) 2014-12-15 2018-02-02 北京百度网讯科技有限公司 语音识别文本的纠错方法和装置
GB2533370A (en) 2014-12-18 2016-06-22 Ibm Orthographic error correction using phonetic transcription
CN108351876A (zh) * 2015-09-22 2018-07-31 纽昂斯通讯公司 用于兴趣点识别的系统和方法
US10546062B2 (en) * 2017-11-15 2020-01-28 International Business Machines Corporation Phonetic patterns for fuzzy matching in natural language processing

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003088209A1 (fr) 2002-04-12 2003-10-23 Mitsubishi Denki Kabushiki Kaisha Systeme de navigation de voiture et dispositif de reconnaissance vocale de ce systeme

Also Published As

Publication number Publication date
CN111328416B (zh) 2023-11-17
GB202008024D0 (en) 2020-07-15
CN111328416A (zh) 2020-06-23
DE112018005844B4 (de) 2021-11-25
WO2019097335A1 (en) 2019-05-23
US20200097540A1 (en) 2020-03-26
DE112018005844T5 (de) 2020-08-13
US20190147036A1 (en) 2019-05-16
GB2585492A (en) 2021-01-13
US10546062B2 (en) 2020-01-28
GB2585492B (en) 2021-03-17
US11397856B2 (en) 2022-07-26
JP2021503097A (ja) 2021-02-04

Similar Documents

Publication Publication Date Title
US11625573B2 (en) Relation extraction from text using machine learning
US10832658B2 (en) Quantized dialog language model for dialog systems
US11769480B2 (en) Method and apparatus for training model, method and apparatus for synthesizing speech, device and storage medium
US10019438B2 (en) External word embedding neural network language models
CN110569337A (zh) 支持对话中意图的组合
US20190279614A1 (en) Advancing word-based speech recognition processing
CN110264991A (zh) 语音合成模型的训练方法、语音合成方法、装置、设备及存储介质
US11455335B2 (en) Image retrieval using interactive natural language dialog
US11157707B2 (en) Natural language response improvement in machine assisted agents
JP7135084B2 (ja) 自然言語処理におけるファジー・マッチングのための音声パターン
WO2022227190A1 (zh) 语音合成方法、装置、电子设备及存储介质
US11132507B2 (en) Cross-subject model-generated training data for relation extraction modeling
US11238235B2 (en) Automated novel concept extraction in natural language processing
US20220383206A1 (en) Task Augmentation and Self-Training for Improved Few-Shot Learning
CN112259089A (zh) 语音识别方法及装置
US11322133B2 (en) Expressive text-to-speech utilizing contextual word-level style tokens
JP7539201B2 (ja) 階層クラスタリングを使用する希少トピック検出
CN114444462B (zh) 模型训练方法及人机交互方法、装置
US11120224B2 (en) Efficient translating of social media posts
US20220092096A1 (en) Automatic generation of short names for a named entity
US10811009B2 (en) Automatic skill routing in conversational computing frameworks
WO2023082831A1 (en) Global neural transducer models leveraging sub-task networks
JP7349523B2 (ja) 音声認識方法、音声認識装置、電子機器、記憶媒体コンピュータプログラム製品及びコンピュータプログラム
US20230360643A1 (en) Ontology Driven Contextual Automated Speech Recognition
JP2020129061A (ja) 言語モデルスコア計算装置、言語モデル作成装置、それらの方法、プログラム、および記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210323

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220222

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220328

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20220502

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220818

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220831

R150 Certificate of patent or registration of utility model

Ref document number: 7135084

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150