JP7441864B2 - 多音字の発音を予測する方法、装置、設備、および記憶媒体 - Google Patents

多音字の発音を予測する方法、装置、設備、および記憶媒体 Download PDF

Info

Publication number
JP7441864B2
JP7441864B2 JP2021574349A JP2021574349A JP7441864B2 JP 7441864 B2 JP7441864 B2 JP 7441864B2 JP 2021574349 A JP2021574349 A JP 2021574349A JP 2021574349 A JP2021574349 A JP 2021574349A JP 7441864 B2 JP7441864 B2 JP 7441864B2
Authority
JP
Japan
Prior art keywords
target
polyphonic
character
vector
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021574349A
Other languages
English (en)
Other versions
JP2023509257A (ja
Inventor
俊杰 李
志宇 張
駿 馬
少軍 王
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Publication of JP2023509257A publication Critical patent/JP2023509257A/ja
Application granted granted Critical
Publication of JP7441864B2 publication Critical patent/JP7441864B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/245Classification techniques relating to the decision surface
    • G06F18/2451Classification techniques relating to the decision surface linear, e.g. hyperplane
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/254Fusion techniques of classification results, e.g. of results related to same input data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Description

本出願は、2020年12月10日に中国特許局に提出された、「多音字の発音を予測する方法、装置、設備、および記憶媒体」と題する中国特許出願第202011432585.6号の優先権を主張し、その全ての内容が参照により本出願に組み込まれている。
本出願は、人工知能における知的意思特定の分野に関し、特に、多音字の発音を予測する方法、装置、設備、および記憶媒体に関する。
テキスト読み上げ(Text-to-Speech)システムでは、書記素から音素(grapheme-to-phoneme)への変換が重要な構成部分である。しかし、他の言語とは異なり、中国語の1つの文字が文脈によって異なる発音を持つことがよく見られ、さらに3つ以上の発音を持つ漢字も多く存在している。したがって、多音字発音ラベリングシステムの品質は、中国語音声合成ラベリングシステムの品質に大きく影響され、発音ラベリングが間違っていると、合成された音声に明らかな誤りが生じる。現在、多音字発音の予測方法に関しては、通常、ラベリングされたデータを使用し、ラベリングされたデータからの特定のベクトル集合をランダムに初期化して多音字発音を予測することである。
しかし、本発明者らは、ベクトル集合をランダムに初期化すると、多音字発音を予測する際、モデルを訓練する場合ラベリングされていない単語を認識できないという問題、すなわち未登録語問題(out of vocabulary)が発生し、その結果、多音字発音を予測する精度が低下することに気が付いた。
本出願は、多音字発音を予測する精度を向上させるための多音字の発音を予測する方法、装置、設備、および記憶媒体を提供する。
本出願の第1の態様は、多音字発音の予測方法を提供し、
ラベリングされた、目標多音字を含む被処理中国語フレーズを取得し、かつ前記被処理中国語フレーズの文字表現ベクトルセットと多音字表現ベクトルを取得することと、
前記被処理中国語フレーズに対して単語分割処理を実行して目標分割単語を得て、かつ前記目標分割単語に応じて前記文字表現ベクトルセットを単語レベル特徴表現ベクトルに変換することと、
前記多音字表現ベクトルと前記単語レベル特徴表現ベクトルに対して、注意力メカニズムに基づくスティッチング処理を行い、目標ベクトルを得ることと、
予め設定された線形層により、前記目標ベクトルの目標ピンイン確率を計算し、かつ前記目標ピンイン確率に基づいて前記目標多音字の目標発音を特定することと、を含む。
本出願の第2の態様は、多音字発音の予測装置を提供し、
ラベリングされた、目標多音字を含む被処理中国語フレーズを取得し、かつ前記被処理中国語フレーズの文字表現ベクトルセットと多音字表現ベクトルを取得するための取得モジュールと、
前記被処理中国語フレーズに対して単語分割処理を実行して目標分割単語を得て、かつ前記目標分割単語に応じて前記文字表現ベクトルセットを単語レベル特徴表現ベクトルに変換するための変換モジュールと、
前記多音字表現ベクトルと前記単語レベル特徴表現ベクトルに対して、注意力メカニズムに基づくスティッチング処理を行い、目標ベクトルを得るためのスティッチングモジュールと、
予め設定された線形層により、前記目標ベクトルの目標ピンイン確率を計算し、かつ前記目標ピンイン確率に基づいて前記目標多音字の目標発音を特定するための特定モジュールと、を含む。
本出願の第3の態様は、多音字発音の予測設備を提供し、命令が記憶されたメモリと、少なくとも1つのプロセッサとを含み、前記少なくとも1つのプロセッサが前記メモリにおける前記命令を呼び出すことで、前記多音字発音の予測設備に、以下のような多音字発音の予測方法、すなわち、
ラベリングされた、目標多音字を含む被処理中国語フレーズを取得し、かつ前記被処理中国語フレーズの文字表現ベクトルセットと多音字表現ベクトルを取得し、
前記被処理中国語フレーズに対して単語分割処理を実行して目標分割単語を得て、かつ前記目標分割単語に応じて前記文字表現ベクトルセットを単語レベル特徴表現ベクトルに変換し、
前記多音字表現ベクトルと前記単語レベル特徴表現ベクトルに対して、注意力メカニズムに基づくスティッチング処理を行い、目標ベクトルを得て、
そして、予め設定された線形層により、前記目標ベクトルの目標ピンイン確率を計算し、かつ前記目標ピンイン確率に基づいて前記目標多音字の目標発音を特定すること、を実行させる。
本出願の第4の態様は、コンピュータ可読記憶媒体を提供し、前記コンピュータ可読記憶媒体に命令が記憶され、それがコンピュータ上で実行されると、コンピュータに、以下のような多音字発音の予測方法、すなわち、
ラベリングされた、目標多音字を含む被処理中国語フレーズを取得し、かつ前記被処理中国語フレーズの文字表現ベクトルセットと多音字表現ベクトルを取得し、
前記被処理中国語フレーズに対して単語分割処理を実行して目標分割単語を得て、かつ前記目標分割単語に応じて前記文字表現ベクトルセットを単語レベル特徴表現ベクトルに変換し、
前記多音字表現ベクトルと前記単語レベル特徴表現ベクトルに対して、注意力メカニズムに基づくスティッチング処理を行い、目標ベクトルを得て、
そして、予め設定された線形層により、前記目標ベクトルの目標ピンイン確率を計算し、かつ前記目標ピンイン確率に基づいて前記目標多音字の目標発音を特定すること、を実行させる。
本出願が提供する技術的解決手段では、ラベリングされた、目標多音字を含む被処理中国語フレーズを取得し、かつ被処理中国語フレーズの文字表現ベクトルセットと多音字表現ベクトルを取得し、被処理中国語フレーズに対して単語分割処理を実行して目標分割単語を得て、かつ目標分割単語に応じて文字表現ベクトルセットを単語レベル特徴表現ベクトルに変換し、多音字表現ベクトルと単語レベル特徴表現ベクトルに対して、注意力メカニズムに基づくスティッチング処理を行い、目標ベクトルを得て、そして、予め設定された線形層により、目標ベクトルの目標ピンイン確率を計算し、かつ目標ピンイン確率に基づいて目標多音字の目標発音を特定する。本出願の実施例では、目標分割単語に応じて文字表現ベクトルセットを単語レベル特徴表現ベクトルに変換し、単語の特徴を単語レベル特徴に変換することで、未登録語の問題が回避され、それによって、多音字発音予測の精度を効果的に向上させ、また、多音字表現ベクトルと単語レベル特徴表現ベクトルに対して、注意力メカニズムに基づくスティッチング処理を行い、しかも予め設定された線形層により、目標ベクトルの目標ピンイン確率を計算し、かつ目標ピンイン確率に基づいて目標多音字の目標発音を特定し、さらに、目標分割単語と注意力メカニズムを組み合わせて、目標多音字の発音を予測することで、いかなるルールや手動の特徴設計も不要になり、単語分割に存在するラベリングエラー問題の影響を緩和し、被処理中国語フレーズのテキスト意味情報を正確に捉えることができ、多音字発音の予測精度を向上させる。
本出願の実施例における多音字発音の予測方法の一実施例の模式図である。 本出願の実施例における多音字発音の予測方法の別の実施例の模式図である。 本出願の実施例における多音字発音の予測装置の一実施例の模式図である。 本出願の実施例における多音字発音の予測装置の別の実施例の模式図である。 本出願の実施例における多音字発音の予測設備の一実施例の模式図である。
本出願の実施例は、多音字発音を予測する精度を向上させる多音字の発音を予測する方法、装置、設備、および記憶媒体を提供する。
本出願の明細書、特許請求の範囲、および上記の図面における「第1」、「第2」、「第3」、「第4」(存在する場合)などの用語は、特定の順序または優先順序を説明するためのものではなく、類似した対象物を区別するために使用されている。このように使用されるデータは、適切な場合には交換可能であり、これによって、本明細書に記載されている実施例は、本明細書に図示または記載されているものと異なる順序で実行することができることを理解すべきである。さらに、「含む」または「有する」という用語およびその変型は、非排他的な包含をカバーすることを意図しており、例えば、一連のステップまたはユニットを含む過程、方法、システム、製品または設備は、明確に記載されたそれらのステップまたはユニットに限定される必要はなく、明確に記載されていない他のステップまたはユニットを含むか、それらの過程、方法、製品または設備に固有のステップまたはユニットを含んでもよい。
理解を容易にするために、本出願の実施例の具体的な流れを以下に説明し、図1を参照すると、本出願の実施例における多音字発音の予測方法の一実施例は、101、102、103、および104を含む。
101、ラベリングされた、目標多音字を含む被処理中国語フレーズを取得し、かつ被処理中国語フレーズの文字表現ベクトルセットと多音字表現ベクトルを取得する。
理解されるように、本出願の実行主体は、多音字発音の予測装置だけでなく、端末やサーバであってもよく、ここでは具体的に限定されない。本出願の実施例は、サーバを実行主体として説明する。
サーバは、予め設定されたインターフェースから送信された初期中国語フレーズを受信し、初期中国語フレーズに対してデータクリーニングを行い、候補中国語フレーズを得て、そして、汎用辞書、ビジネスドメイン辞書、およびユーザ画像ラベルのうちの少なくとも1つの多音字に基づいて作成された付箋であり得る、予め作成された多音字ラベルを取得ことで、マルチドメインラベリングに基づく多音字の普遍性と精度を向上させ、また、ユーザ画像ラベルの関心に基づいて、多音字のラベリング精度を向上させ、多音字ラベルは、多音字と、意味情報に基づく多音字の発音とを含み、候補中国語フレーズのビジネスドメインとユーザ情報を認識し、ビジネスドメインとユーザ情報に基づいて、対応する多音字ラベルを呼び出し、さらに、当該多音字ラベルを用いて、候補中国語フレーズにおける目標多音字を認識し、かつ目標多音字をラベリングすることで、ラベリングされた被処理中国語フレーズを得る。
サーバは、ラベリングされた被処理中国語フレーズを得た後、予め訓練された文字ベクトルおよび予め設定された文字ベクトル変換アルゴリズムを呼び出して、被処理中国語フレーズの単語に対してベクトル変換を行い、文字表現ベクトルセットを得て、ラベリングされた目標多音字に応じて、文字表現ベクトルセットにおける目標多音字に対応する表現ベクトルを抽出し、それによって、多音字表現ベクトルを得て、または、サーバは、ラベリングされた被処理中国語フレーズにおける目標多音字を抽出し、予め訓練された文字ベクトルおよび予め設定された文字ベクトル変換アルゴリズムを呼び出して、被処理中国語フレーズの単語と目標多音字に対してそれぞれベクトル変換を行い、文字表現ベクトルセットおよび多音字表現ベクトルを得る。ここで、目標多音字の数は、1つ以上である。
102、被処理中国語フレーズに対して単語分割処理を実行して目標分割単語を得て、かつ目標分割単語に応じて文字表現ベクトルセットを単語レベル特徴表現ベクトルに変換する。
サーバは、予め設定された吃音jieba単語分割ツールや、中国語処理パケットhanlp単語分割ツールなどの単語分割ツールを呼び出して、被処理中国語フレーズに対して、元の文順に基づく単語分割処理を行い、初期分割単語を得て、あるいは、サーバは、予め設定された、辞書に基づく中国語単語分割アルゴリズム、または統計に基づく中国語単語分割アルゴリズムを呼び出して、被処理中国語フレーズに対して、元の文順に基づく単語分割処理を行い、初期分割単語を得て、予め設定されたワードスティッチングルールに応じて、初期分割単語をスティッチングして目標分割単語を得て、ここで、初期分割単語と目標分割単語の数はいずれも1つ以上である。サーバは、目標分割単語に応じて、文字表現ベクトルセットにおける文字表現ベクトルを分類し、各目標分割単語に対応する文字表現ベクトル群を得て、各目標分割単語に対応する文字表現ベクトル群をスティッチングして、単語レベル特徴表現ベクトルを得、単語レベル特徴表現ベクトルの数は1つ以上であり、1つの目標分割単語は、1つの単語レベル特徴表現ベクトルに対応する。
103、多音字表現ベクトルと単語レベル特徴表現ベクトルに対して、注意力メカニズムに基づくスティッチング処理を行い、目標ベクトルを得る。
サーバは、予め設定された注意力メカニズムによって、多音字表現ベクトルの多音字注意力値を計算し、当該多音字注意力値と多音字表現ベクトルを乗算して多音字ベクトル行列を得て、多音字表現ベクトルに基づく単語レベル特徴表現ベクトルの単語注意力値を計算し、単語ベクトル行列を得て、多音字ベクトル行列と単語ベクトル行列に対して行列加算または行列乗算を行って目標ベクトルを得てよく、あるいは、サーバは、予め設定された注意力メカニズムによって、単語レベル特徴表現ベクトルに対する多音字表現ベクトルの第1の注意力値を計算し、多音字表現ベクトルに対する単語レベル特徴表現ベクトルの第2の注意力値を得て、第1の注意力値と単語レベル特徴表現ベクトルを乗算して第1のベクトルを得て、第2の注意力値と多音字表現ベクトルを乗算して第2のベクトルを得て、第1のベクトルと第2のベクトルに対して行列加算または行列乗算を行って目標ベクトルを得てもよい。
104、予め設定された線形層により、目標ベクトルの目標ピンイン確率を計算し、かつ目標ピンイン確率に基づいて目標多音字の目標発音を特定する。
予め設定された線形層の層数は、複数の層であってもよく、各層はそれぞれ1つの分類器に対応し、すなわち、線形層は複数の分類器を含み、サーバは、複数の分類器を用いて、目標ベクトルに対してピンイン分類と確率値計算をそれぞれ行い、各分類器に対応する複数の初期ピンイン確率を得て、複数の分類器に対応する初期ピンイン確率に対して重み付け加算を行い、目標ベクトルの1つ以上の目標ピンイン確率を得て、そして、初期ピンイン確率、予め設定された閾値および初期ピンイン確率の大きさを比較して、目標ピンイン確率を得て、目標ピンイン確率に対応するピンインを目標多音字の目標発音として特定し、例えば、複数の分類器は、分類器1、分類器2および分類器3であり、分類器1は、目標ベクトルに対してピンイン分類と確率値計算を行い、ピンイン1に基づく確率A1とピンイン2に基づく確率A2を得て、分類器2は、目標ベクトルに対してピンイン分類と確率値計算を行い、ピンイン1に基づく確率B1とピンイン2に基づく確率B2を得て、分類器3は、目標ベクトルに対してピンイン分類と確率値計算を行い、ピンイン1に基づく確率C1とピンイン2に基づく確率C2を得て、A1、B1とC1に対して重み付け加算を行い、ピンイン1に基づく目標ベクトルの初期ピンイン確率1を得て、A2、B2とC2に対して重み付け加算を行い、ピンイン2に基づく目標ベクトルの初期ピンイン確率2を得て、初期ピンイン確率1と初期ピンイン確率2のいずれかが予め設定された閾値よりも大きい場合、予め設定された閾値よりも大きい初期ピンイン確率を目標ピンイン確率として特定し、初期ピンイン確率1と初期ピンイン確率2が両方とも予め設定された閾値よりも大きい場合、初期ピンイン確率1と初期ピンイン確率2のうちの大きい方を目標ピンイン確率として特定し、初期ピンイン確率1と初期ピンイン確率2が両方とも予め設定された閾値以下である場合、初期ピンイン確率を再計算する。サーバは、目標ピンイン確率を得た後、目標ピンイン確率に対応するピンインを目標多音字の目標発音として特定する。
ここで、別の実施例では、サーバは、被処理中国語フレーズと目標多音字に応じて、予め設定されたデータベースに記憶された初期履歴多音字情報をマッチングし、対応する目標履歴多音字情報を得て、目標履歴多音字情報は、目標履歴中国語フレーズ、目標履歴中国語フレーズにおける履歴多音字と履歴多音字発音を含み、目標多音字の目標発音と履歴多音字発音との間の類似度を計算し、当該類似度と1の差を計算して目標値を得て、目標値が予め設定された類似度の値よりも小さいか否かを判断し、そうである場合、目標多音字の目標発音を最後の目標発音として特定し、そうでない場合、履歴多音字発音を目標多音字の目標発音として特定する。
本出願の実施例では、目標分割単語に応じて文字表現ベクトルセットを単語レベル特徴表現ベクトルに変換し、単語の特徴を単語レベル特徴に変換することで、未登録語の問題が回避され、それによって、多音字発音予測の精度を効果的に向上させ、また、多音字表現ベクトルと単語レベル特徴表現ベクトルに対して、注意力メカニズムに基づくスティッチング処理を行い、しかも予め設定された線形層により、目標ベクトルの目標ピンイン確率を計算し、かつ目標ピンイン確率に基づいて目標多音字の目標発音を特定し、さらに、目標分割単語と注意力メカニズムを組み合わせて、目標多音字発音を予測することで、いかなるルールや手動の特徴設計も不要になり、単語分割に存在するラベリングエラー問題の影響を緩和し、被処理中国語フレーズのテキスト意味情報を正確に捉えることができ、多音字発音の予測精度を向上させる。
図2を参照すると、本出願の実施例における多音字発音の予測方法の別の実施例は、201、202、203、204、および205を含む。
201、ラベリングされた、目標多音字を含む被処理中国語フレーズを取得し、かつ被処理中国語フレーズの文字表現ベクトルセットと多音字表現ベクトルを取得する。
具体的には、サーバは、初期中国語フレーズ、初期中国語フレーズにおける目標多音字、および目標多音字に対応する多音字位置情報を取得し、多音字位置情報に応じて、初期中国語フレーズにおける目標多音字をラベリングし、被処理中国語フレーズを得て、被処理中国語フレーズに対して文字ベクトルの符号化と多音字ベクトルの抽出を順次行い、文字表現ベクトルセットと多音字表現ベクトルを得る。
サーバは、予め設定されたインターフェースから送信された初期中国語フレーズを受信し、予め作成された多音字辞書を呼び出し、初期中国語フレーズに対して多音字認識を行い、目標多音字を得て、初期中国語フレーズにおける目標多音字の位置情報(すなわち、多音字位置情報)を抽出し、初期中国語フレーズの多音字位置情報に対応する目標多音字をラベリングし、ラベリングされる内容は、目標多音字と目標多音字の多音字位置情報を含み、ラベリングされる内容はさらに、初期中国語フレーズに対応する中国語フレーズに基づく目標多音字の発音を含んでもく、ここで、意味的類似度、感情的類似度、および構文的類似度の重み付け加算値を計算することで、初期中国語フレーズに対応する中国語フレーズをマッチングすることができ、それによって、被処理中国語フレーズを得る。
サーバは、予め設定された教師付きニューラルネットワークエンコーダーおよび/または教師なしの事前訓練済みネットワークエンコーダーを呼び出して、被処理中国語フレーズに対して文字ベクトル符号化を行い、文字表現ベクトルセットを得て、文字表現ベクトルセットから目標多音字に対応する多音字表現ベクトルを抽出する。
具体的には、サーバは、予め設定されたディープニューラルネットワークエンコーダーによって、被処理中国語フレーズにおける各文字を符号化し、文字表現ベクトルセットを得て、1つの文字表現ベクトルが1つの文字に対応し、多音字位置情報に応じて、文字表現ベクトルセットから目標多音字に対応する表現ベクトルを抽出し、多音字表現ベクトルを得る。
サーバは、予め設定された教師付きニューラルネットワークエンコーダーにおけるディープニューラルネットワークエンコーダーを呼び出し、ディープニューラルネットワークエンコーダーは、長短期記憶人工ニューラルネットワーク(long short-term memory、LSTM)モデル、およびトランスフォーマーからの双方向エンコーダー表現(bidirectional encoder representations from transformers、BERT)モデルのうちの少なくとも1つを含んでもよいが、これらに限定されなく、ディープニューラルネットワークエンコーダーによって、被処理中国語フレーズにおける各単語の配列順に応じて、被処理中国語フレーズにおける各単語に対して文脈上の意味情報に基づく符号化を行い、各単語の表現ベクトル、すなわち文字表現ベクトルセットを得て、文字表現ベクトルセットにおける多音字位置情報対応する表現ベクトルを抽出して、多音字表現ベクトルを得て、例えば、被処理中国語フレーズは「全ての商品がいずれも割引価格で販売されている」である場合、多音字位置情報は被処理中国語フレーズの7番目の単語となり、文字表現ベクトルセットから7番目の文字表現ベクトルを抽出して、目標多音字に対応する多音字表現ベクトルを得る。
202、被処理中国語フレーズに対して単語分割処理を実行して目標分割単語を得て、かつ目標分割単語に応じて文字表現ベクトルセットを単語レベル特徴表現ベクトルに変換する。
具体的には、サーバは、被処理中国語フレーズに対して単語分割処理を行って目標分割単語を得て、目標分割単語に応じて文字表現ベクトルセットを分割して各単語の表現ベクトル群を得、予め設定されたハイブリッドプーリング層によって、各単語の表現ベクトル群をハイブリッドプーリングして、単語レベル特徴表現ベクトルを得る。
サーバは、予め設定された中国語単語分割アルゴリズムを呼び出して、被処理中国語フレーズに対して単語分割処理を行って初期分割単語を得て、初期分割単語に対して品詞検出とフレーズ検出を行い、検出に合格した初期分割単語を目標分割単語として特定し、当該中国語単語分割アルゴリズムは、ユニグラムN-Gramモデルと双方向最大マッチング(bi-directction matching method、BM)モデルを統合したもので、すなわち、N-Gramモデルの出力がBMモデルの入力になったり、BMモデルの出力がN-Gramモデルの入力になったり、N-GramモデルとBMモデルが並んで接続されたりすることが可能である。
サーバは、目標分割単語に応じて文字表現ベクトルセットを分割して、各単語の表現ベクトル群を得て、例えば、被処理中国語フレーズは「全ての商品がいずれも割引価格で販売されている」である場合、対応する目標分割単語は、「全ての」、「商品」、「いずれも」、「割引価格」と「販売」となり、「割引価格」を例に挙げると、「割引価格」という単語の表現ベクトル群は、「割引」の表現ベクトルと「価格」の表現ベクトルで構成され、他の単語も同様である。
予め設定されたハイブリッドプーリング層は、最大プーリングと平均プーリングを組み合わせたプーリング層を示すために用いられ、サーバは、予め設定されたハイブリッドプーリング層を呼び出し、各単語の表現ベクトル群をハイブリッドプーリングして、単語レベル特徴表現ベクトルを得、例えば、単語の表現ベクトル群における「割引」の表現ベクトルと「価格」の表現ベクトルを融合して、「割引価格」の単語レベル特徴表現ベクトルを得る。ここで、サーバは、ハイブリッドプーリング層における最大プーリング畳み込みカーネルまたは最大プーリング層によって、各単語の表現ベクトル群に対して最大プーリング処理を行い、第1の単語表現ベクトル群を得、また、ハイブリッドプーリング層における平均プーリング畳み込みカーネルまたは平均プーリング層によって、第1の単語表現ベクトル群に対して平均プーリング処理を行い、単語レベル特徴表現ベクトルを得てよく、あるいは、サーバは、ハイブリッドプーリング層における最大プーリング畳み込みカーネルまたは最大プーリング層によって、各単語の表現ベクトル群に対して最大プーリング処理を行い、第1の単語表現ベクトル群を得、また、ハイブリッドプーリング層における平均プーリング畳み込みカーネルまたは平均プーリング層によって、各単語の表現ベクトル群に対して平均プーリング処理を行い、第2の単語表現ベクトル群を得て、第1の単語表現ベクトル群と第2の単語表現ベクトル群を融合して、単語レベル特徴表現ベクトルを得てもよく、あるいは、サーバは、最大プーリング畳み込みカーネルと平均プーリング畳み込みカーネルを融合したハイブリッドプーリング層を予め作成し、各単語の表現ベクトル群に対してプーリング畳み込み処理を行い、単語レベル特徴表現ベクトルを得て、単語レベル特徴表現ベクトルの数は1つ以上であり、1つの目標分割単語は、1つの単語レベル特徴表現ベクトルに対応する。
203、予め設定されたフィードフォワード注意力メカニズムによって、多音字表現ベクトルと単語レベル特徴表現ベクトルに対して注意力の計算を行い、注意力ベクトルを得る。
サーバは、予め設定されたフィードフォワード注意力メカニズムfeed-forward attentionによって、多音字表現ベクトルと単語レベル特徴表現ベクトルとの注意力の値を計算し、当該注意力値によって多音字表現ベクトルと単語レベル特徴表現ベクトルに対して重み付け加算を行い、注意力ベクトルを得、あるいは、サーバは、予め設定されたフィードフォワード注意力メカニズムfeed-forward attentionによって、単語レベル特徴表現ベクトルに対する多音字表現ベクトルの注意力の値を計算し、注意力値と多音字表現ベクトルを乗算して多音字表現ベクトル行列を得て、多音字表現ベクトル行列と単語レベル特徴表現ベクトルに対して行列加算または行列乗算を行って注意力ベクトルを得る。
204、注意力ベクトルと多音字表現ベクトルをスティッチングして、目標ベクトルを得る。
サーバは、注意力ベクトルを得た後、注意力ベクトルと多音字表現ベクトルに対して行列乗算または行列加算を行って目標ベクトルを得、あるいは、サーバは、注意力ベクトルと多音字表現ベクトルに対して重み付け加算を行い、目標ベクトルを得る。予め設定されたフィードフォワード注意力メカニズムによって目標ベクトルを取得することは、目標多音字に対して、被処理中国語フレーズ中のどの単語の情報がより重要で、より大きな重みを必要とするかを示すことで、目標多音字の文脈的意味融合の精度を向上させる。
205、予め設定された線形層により、目標ベクトルの目標ピンイン確率を計算し、かつ目標ピンイン確率に基づいて目標多音字の目標発音を特定する。
具体的には、サーバは、予め設定された線形層により、各ピンインに基づく目標ベクトルの確率を計算し、多音字ピンイン確率値セットを得て、次に、多音字ピンイン確率値セットにおける多音字ピンイン確率値を降順に並べ、かつ最初に並べられた多音字ピンイン確率値を目標ピンイン確率として特定し、さらに、目標ピンイン確率に対応するピンインを目標多音字の目標発音として特定する。
例えば、線形層の数は1つである場合、サーバは、目標ベクトルを予め設定された線形層に入力し、当該線形層によって各ピンインに基づく目標ベクトルの確率を計算し、多音字ピンイン確率値セットを多音字ピンイン確率値1および多音字ピンイン確率値2として取得し、多音字ピンイン確率値1および多音字ピンイン確率値2を降順に並べることで、「多音字ピンイン確率値2ー多音字ピンイン確率値1」という配列を得て、多音字ピンイン確率値2が最初に並べられた場合、それを目標ピンイン確率とし、目標ピンイン確率に対応するピンインを目標多音字の目標発音として特定する。
具体的には、サーバは、予め設定された線形層により、目標ベクトルの目標ピンイン確率を計算し、かつ目標ピンイン確率に基づいて目標多音字の目標発音を特定した後、ラベリング発音に基づく目標発音の誤差値を取得し、かつ誤差値に応じて、目標発音を取得する実行プロセス、アルゴリズムやネットワーク構造などを含む、目標発音の取得戦略を最適化する。
サーバは、目標多音字のラベリング発音を取得し、当該ラベリング発音は、被処理中国語フレーズの意味と感情に対応するフレーズに基づく目標多音字の発音であり、当該ラベリング発音は、手動ラベリングによって得られてもよく、または予め訓練された多音字ラベリングモデルによるラベリングによって得られてもよく、目標多音字の目標発音とラベリング発音との間の発音類似度を計算し、発音類似度と1の差値を計算して、ラベリング発音に基づく目標発音の誤差値を得、当該誤差値によって目標発音を取得する実行プロセスを調整し、かつ目標発音を取得するためのネットワーク構造を当該誤差値によって最適化し、当該ネットワーク構造は、ニューラルネットワーク構造とモデルパラメータを含み、可能な対応する処理機能は、表現ベクトルの生成、表現ベクトルの抽出、単語分割や線形層のピンイン確率計算などであってもよく、目標発音を取得するためのアルゴリズムに対して当該誤差値によって増加や削除、または実行順序の調整を行い、誤差値によって目標発音の取得戦略を最適化することで、多音字発音の予測精度を向上させる。
本出願の実施例では、目標分割単語に応じて文字表現ベクトルセットを単語レベル特徴表現ベクトルに変換し、単語の特徴を単語レベル特徴に変換することで、未登録語の問題が回避され、それによって、多音字発音予測の精度を効果的に向上させ、また、多音字表現ベクトルと単語レベル特徴表現ベクトルに対して、注意力メカニズムに基づくスティッチング処理を行い、しかも予め設定された線形層により、目標ベクトルの目標ピンイン確率を計算し、かつ目標ピンイン確率に基づいて目標多音字の目標発音を特定し、さらに、目標分割単語と注意力メカニズムを組み合わせて、目標多音字発音を予測することで、いかなるルールや手動の特徴設計も不要になり、単語分割に存在するラベリングエラー問題の影響を緩和し、被処理中国語フレーズのテキスト意味情報を正確に捉えることができ、多音字発音の予測精度を向上させる。
以上は、本出願の実施例における多音字発音の予測方法を説明したが、以下は、本出願の実施例における多音字発音の予測装置を説明し、図3を参照すると、本出願の実施例における多音字発音の予測装置の一実施例は、
ラベリングされた、目標多音字を含む被処理中国語フレーズを取得し、かつ被処理中国語フレーズの文字表現ベクトルセットと多音字表現ベクトルを取得するための取得モジュール301と、
被処理中国語フレーズに対して単語分割処理を実行して目標分割単語を得て、かつ目標分割単語に応じて文字表現ベクトルセットを単語レベル特徴表現ベクトルに変換するための変換モジュール302と、
多音字表現ベクトルと単語レベル特徴表現ベクトルに対して、注意力メカニズムに基づくスティッチング処理を行い、目標ベクトルを得るためのスティッチングモジュール303と、
予め設定された線形層により、目標ベクトルの目標ピンイン確率を計算し、かつ目標ピンイン確率に基づいて目標多音字の目標発音を特定するための特定モジュール304と、を含む。
上記多音字発音の予測装置における各モジュールの機能実現は、上記多音字発音の予測方法の実施例における各ステップと対応し、その機能および実現プロセスはここで繰り返して説明しない。
本出願の実施例では、目標分割単語に応じて文字表現ベクトルセットを単語レベル特徴表現ベクトルに変換し、単語の特徴を単語レベル特徴に変換することで、未登録語の問題が回避され、それによって、多音字発音予測の精度を効果的に向上させ、また、多音字表現ベクトルと単語レベル特徴表現ベクトルに対して、注意力メカニズムに基づくスティッチング処理を行い、しかも予め設定された線形層により、目標ベクトルの目標ピンイン確率を計算し、かつ目標ピンイン確率に基づいて目標多音字の目標発音を特定し、さらに、目標分割単語と注意力メカニズムを組み合わせて、目標多音字発音を予測することで、いかなるルールや手動の特徴設計も不要になり、単語分割に存在するラベリングエラー問題の影響を緩和し、被処理中国語フレーズのテキスト意味情報を正確に捉えることができ、多音字発音の予測精度を向上させる。
図4を参照すると、本出願の実施例における多音字発音の予測装置の別の実施例は、
ラベリングされた、目標多音字を含む被処理中国語フレーズを取得し、かつ被処理中国語フレーズの文字表現ベクトルセットと多音字表現ベクトルを取得するための取得モジュール301と、
被処理中国語フレーズに対して単語分割処理を実行して目標分割単語を得て、かつ目標分割単語に応じて文字表現ベクトルセットを単語レベル特徴表現ベクトルに変換するための変換モジュール302と、
多音字表現ベクトルと単語レベル特徴表現ベクトルに対して、注意力メカニズムに基づくスティッチング処理を行い、目標ベクトルを得るためのスティッチングモジュール303と、
ここで、スティッチングモジュール303が具体的に、
予め設定されたフィードフォワード注意力メカニズムによって、多音字表現ベクトルと単語レベル特徴表現ベクトルに対して注意力の計算を行い、注意力ベクトルを得るための計算ユニット3031、および
注意力ベクトルと多音字表現ベクトルをスティッチングして、目標ベクトルを得るためのスティッチングユニット3032を含み、
予め設定された線形層により、目標ベクトルの目標ピンイン確率を計算し、かつ目標ピンイン確率に基づいて目標多音字の目標発音を特定するための特定モジュール304と、を含む。
任意選択的に、変換モジュール302はさらに、具体的に、
被処理中国語フレーズに対して単語分割処理を実行して目標分割単語を得ることと、
目標分割単語に応じて文字表現ベクトルセットを分割して各単語の表現ベクトル群を得ることと、
予め設定されたハイブリッドプーリング層によって、各単語の表現ベクトル群をハイブリッドプーリングして、単語レベル特徴表現ベクトルを得ることと、に使用され得る。
任意選択的に、特定モジュール304はさらに、具体的に、
予め設定された線形層により、各ピンインに基づく目標ベクトルの確率を計算し、多音字ピンイン確率値セットを得ることと、
多音字ピンイン確率値セットにおける多音字ピンイン確率値を降順に並べ、かつ最初に並べられた多音字ピンイン確率値を目標ピンイン確率として特定することと、
目標ピンイン確率に対応するピンインを目標多音字の目標発音として特定することと、使用され得る。
任意選択的に、取得モジュール301は、
初期中国語フレーズ、初期中国語フレーズにおける目標多音字、および目標多音字に対応する多音字位置情報を取得するための取得ユニット3011と、
多音字位置情報に応じて、初期中国語フレーズにおける目標多音字をラベリングし、被処理中国語フレーズを得るためのラベリングユニット3012と、
被処理中国語フレーズに対して文字ベクトルの符号化と多音字ベクトルの抽出を順次行い、文字表現ベクトルセットと多音字表現ベクトルを得るための符号化抽出ユニット3013と、を含む。
任意選択的に、符号化抽出ユニット3013はさらに、具体的に、
予め設定されたディープニューラルネットワークエンコーダーによって、被処理中国語フレーズにおける各文字を符号化し、文字表現ベクトルセットを得て、1つの文字表現ベクトルが1つの文字に対応することと、
多音字位置情報に応じて、文字表現ベクトルセットから目標多音字に対応する表現ベクトルを抽出し、多音字表現ベクトルを得ることと、に使用され得る。
任意選択的に、多音字発音の予測装置はさらに、
ラベリング発音に基づく目標発音の誤差値を取得し、かつ誤差値に応じて、目標発音を取得する実行プロセス、アルゴリズムやネットワーク構造などを含む、目標発音の取得戦略を最適化するための最適化モジュール305を含む。
上記多音字発音の予測装置における各モジュールおよび各ユニットの機能実現は、上記多音字発音の予測方法の実施例における各ステップと対応し、その機能および実現プロセスはここで繰り返して説明しない。
本出願の実施例では、目標分割単語に応じて文字表現ベクトルセットを単語レベル特徴表現ベクトルに変換し、単語の特徴を単語レベル特徴に変換することで、未登録語の問題が回避され、それによって、多音字発音予測の精度を効果的に向上させ、また、多音字表現ベクトルと単語レベル特徴表現ベクトルに対して、注意力メカニズムに基づくスティッチング処理を行い、しかも予め設定された線形層により、目標ベクトルの目標ピンイン確率を計算し、かつ目標ピンイン確率に基づいて目標多音字の目標発音を特定し、さらに、目標分割単語と注意力メカニズムを組み合わせて、目標多音字発音を予測することで、いかなるルールや手動の特徴設計も不要になり、単語分割に存在するラベリングエラー問題の影響を緩和し、被処理中国語フレーズのテキスト意味情報を正確に捉えることができ、多音字発音の予測精度を向上させる。
上記の図3および図4では、モジュール化機能実体の観点から本出願の実施例における多音字発音の予測装置を詳細に説明したが、以下は、ハードウェア処理の観点から本出願の実施例における多音字発音の予測設備を詳細に説明する。
図5は、本出願の実施例で提供される多音字発音の予測設備の構造模式図であり、当該多音字発音の予測設備500は、構成や性能によって差異が比較的大きい可能性があり、1つ以上のプロセッサ(central processing units、CPU)510(例えば、1つ以上のプロセッサ)と、メモリ520と、アプリケーション533やデータ532を記憶する1つ以上の記憶媒体530(例えば、1つ以上の大容量記憶設備)を含み得る。ここで、メモリ520および記憶媒体530は、短期記憶または永続記憶のものであり得る。記憶媒体530に記憶されたプログラムは、1つ以上のモジュール(図示せず)を含み得、各モジュールは、多音字発音の予測設備500における一連の命令操作を含み得る。さらに、プロセッサ510は、記憶媒体530と通信して、記憶媒体530における一連の命令操作を多音字発音の予測設備500上で実行するように設定してもよい。
多音字発音の予測設備500はさらに、1つ以上の電源540と、1つ以上の有線または無線ネットワークインターフェース550と、1つ以上の入出力インターフェース560、および/または、Windows Serve、Mac OS X、Unix、Linux、FreeBSDなどの1つ以上のオペレーティングシステム531を含み得る。当業者であれば、図5に示す多音字発音の予測設備の構造は、多音字発音の予測設備を限定するものではなく、図示したものよりも多くのまたは少ない部品を含んでもよいし、特定の部品を組み合わせてもよいし、部品の異なる配置であってもよいことを理解できるであろう。
本出願はさらに、コンピュータ可読記憶媒体を提供し、当該コンピュータ可読記憶媒体は、不揮発性コンピュータ可読記憶媒体であってもよく、揮発性コンピュータ可読記憶媒体であってもよく、コンピュータ可読記憶媒体には命令が記憶され、その命令がコンピュータ上で実行されると、コンピュータに多音字発音の予測方法のステップを実行させる。
さらに、コンピュータ可読記憶媒体は、記憶プログラム領域と記憶データ領域を主に含んでもよく、ここで、記憶プログラム領域は、オペレーティングシステムや少なくとも1つの機能に必要なアプリケーションなどを含み得、記憶データ領域は、ブロックチェーンノードの使用に基づいて作成されたデータなどを含み得る。
本出願でいうブロックチェーンは、分散型データストレージ、ピアツーピア伝送、コンセンサスメカニズム、暗号アルゴリズムなどのコンピュータ技術の新しい応用モデルである。ブロックチェーン(Blockchain)は、実質的には分散型データベースであり、暗号化方法で関連付けて生成されたデータブロックであり、各データブロックには、1回のネットワークトランザクションに関する情報が含まれており、その情報の有効性(偽造防止)を検証し、次のブロックを生成するために使用される。ブロックチェーンは、基礎となるブロックチェーンプラットフォーム、プラットフォーム製品サービス層、およびアプリケーションサービス層などを含み得る。
当業者であれば分かるように、説明の便宜上、上述したシステム、装置、およびユニットの具体的な作業プロセスは、上述した方法実施例における対応するプロセスを参照することができ、ここでは繰り返して説明しない。
統合ユニットは、ソフトウェア機能ユニットの形で実現され、かつ独立した製品として販売または使用される場合には、コンピュータ可読取記憶媒体に記憶されてもよい。この理解に基づいて、本出願の技術的解決手段は、本質的にまたは従来技術に寄与するその一部、または当該技術的解決手段の全部または一部が、ソフトウェア製品の形で具現化されてもよく、当該コンピュータソフトウェア製品は、記憶媒体に記憶され、コンピュータ設備(パーソナルコンピュータ、サーバやネットワーク設備など)に、本出願の各実施例に記載の方法のステップの全部または一部を実行させるためのいくつかの命令を含む。前述の記憶媒体には、USBメモリー、モバイルハードディスク、読み取り専用メモリ(read-only memory、ROM)、ランダムアクセスメモリ(random access memory、RAM)、ディスクまたは光ディスクなど、プログラムコードを記憶できる媒介が含まれている。
前述のように、上記の実施例は、本出願の技術の解決手段を説明するために過ぎず、それらを限定するものではなく、上記の実施例を参照して本出願を詳細に説明したが、当業者であれば分かるように、上記の各実施例に記載された技術の解決手段を修正したり、その技術の特徴の一部を同等のものに置き換えたりすることは可能であり、そのような修正または置き換えは、対応する技術の解決手段の本質を本出願の各実施例の技術の解決手段の精神と範囲から逸脱させるものではない。

Claims (9)

  1. ラベリングされた、目標多音字を含む被処理中国語フレーズを取得し、かつ前記被処理中国語フレーズの文字表現ベクトルセットと多音字表現ベクトルを取得することと、
    前記被処理中国語フレーズに対して元の文順に基づく単語分割処理を行い、初期分割単語を得て、予め設定されたワードスティッチングルールに応じて、前記初期分割単語をスティッチングして目標分割単語を得て、かつ前記目標分割単語に応じて前記文字表現ベクトルセットを単語レベル特徴表現ベクトルに変換することと、
    前記多音字表現ベクトルと前記単語レベル特徴表現ベクトルに対して、注意力メカニズムに基づくスティッチング処理を行い、目標ベクトルを得ることと、
    予め設定された線形層により、前記目標ベクトルの目標ピンイン確率を計算し、かつ前記目標ピンイン確率に基づいて前記目標多音字の目標発音を特定することと、を含む、多音字発音の予測方法。
  2. 上述した、前記被処理中国語フレーズに対して元の文順に基づく単語分割処理を行い、初期分割単語を得て、予め設定されたワードスティッチングルールに応じて、前記初期分割単語をスティッチングして目標分割単語を得て、かつ前記目標分割単語に応じて前記文字表現ベクトルセットを単語レベル特徴表現ベクトルに変換することは、
    前記被処理中国語フレーズに対して元の文順に基づく単語分割処理を行い、初期分割単語を得て、予め設定されたワードスティッチングルールに応じて、前記初期分割単語をスティッチングして目標分割単語を得ることと、
    前記目標分割単語に応じて前記文字表現ベクトルセットを分割して各単語の表現ベクトル群を得ることと、
    予め設定されたハイブリッドプーリング層によって、前記各単語の表現ベクトル群をハイブリッドプーリングして、単語レベル特徴表現ベクトルを得ることと、を含む、請求項1に記載の多音字発音の予測方法。
  3. 上述した、前記多音字表現ベクトルと前記単語レベル特徴表現ベクトルに対して、注意力メカニズムに基づくスティッチング処理を行い、目標ベクトルを得ることは、
    予め設定されたフィードフォワード注意力メカニズムによって、前記多音字表現ベクトルと前記単語レベル特徴表現ベクトルに対して注意力の計算を行い、注意力ベクトルを得ることと、
    前記注意力ベクトルと前記多音字表現ベクトルをスティッチングして、目標ベクトルを得ることと、を含む、請求項1に記載の多音字発音の予測方法。
  4. 前記予め設定された線形層により、前記目標ベクトルの目標ピンイン確率を計算し、かつ前記目標ピンイン確率に基づいて前記目標多音字の目標発音を特定することは、
    予め設定された線形層により、各ピンインに基づく前記目標ベクトルの確率を計算し、多音字ピンイン確率値セットを得ることと、
    前記多音字ピンイン確率値セットにおける多音字ピンイン確率値を降順に並べ、かつ最初に並べられた多音字ピンイン確率値を目標ピンイン確率として特定することと、
    前記目標ピンイン確率に対応するピンインを前記目標多音字の目標発音として特定することと、を含む、請求項1に記載の多音字発音の予測方法。
  5. 上述した、ラベリングされた、目標多音字を含む被処理中国語フレーズを取得し、かつ前記被処理中国語フレーズの文字表現ベクトルセットと多音字表現ベクトルを取得することは、
    初期中国語フレーズ、前記初期中国語フレーズにおける目標多音字、および前記目標多音字に対応する多音字位置情報を取得することと、
    前記多音字位置情報に応じて、前記初期中国語フレーズにおける目標多音字をラベリングし、被処理中国語フレーズを得ることと、
    前記被処理中国語フレーズに対して文字ベクトルの符号化と多音字ベクトルの抽出を順次行い、文字表現ベクトルセットと多音字表現ベクトルを得ることと、を含む、請求項1に記載の多音字発音の予測方法。
  6. 上述した、前記被処理中国語フレーズに対して文字ベクトルの符号化と多音字ベクトルの抽出を順次行い、文字表現ベクトルセットと多音字表現ベクトルを得ることは、
    予め設定されたディープニューラルネットワークエンコーダーによって、前記被処理中国語フレーズにおける各文字を符号化し、文字表現ベクトルセットを得て、1つの文字表現ベクトルが1つの文字に対応することと、
    前記多音字位置情報に応じて、前記文字表現ベクトルセットから前記目標多音字に対応する表現ベクトルを抽出し、多音字表現ベクトルを得ることと、を含む、請求項5に記載の多音字発音の予測方法。
  7. 上述した、予め設定された線形層により、前記目標ベクトルの目標ピンイン確率を計算し、かつ前記目標ピンイン確率に基づいて前記目標多音字の目標発音を特定するステップの後、さらに、
    ラベリング発音に基づく前記目標発音の誤差値を取得し、かつ前記誤差値に応じて、前記目標発音を取得する実行プロセス、アルゴリズムやネットワーク構造を含む、前記目標発音の取得戦略を最適化することを、含む、請求項1~6のいずれか1項に記載の多音字発音の予測方法。
  8. ラベリングされた、目標多音字を含む被処理中国語フレーズを取得し、かつ前記被処理中国語フレーズの文字表現ベクトルセットと多音字表現ベクトルを取得するための取得モジュールと、
    前記被処理中国語フレーズに対して元の文順に基づく単語分割処理を行い、初期分割単語を得て、予め設定されたワードスティッチングルールに応じて、前記初期分割単語をスティッチングして目標分割単語を得て、かつ前記目標分割単語に応じて前記文字表現ベクトルセットを単語レベル特徴表現ベクトルに変換するための変換モジュールと、
    前記多音字表現ベクトルと前記単語レベル特徴表現ベクトルに対して、注意力メカニズムに基づくスティッチング処理を行い、目標ベクトルを得るためのスティッチングモジュールと、
    予め設定された線形層により、前記目標ベクトルの目標ピンイン確率を計算し、かつ前記目標ピンイン確率に基づいて前記目標多音字の目標発音を特定するための特定モジュールと、を含む、多音字発音の予測装置。
  9. 命令が記憶されたメモリと、少なくとも1つのプロセッサとを含んでおり、
    前記少なくとも1つのプロセッサが前記メモリにおける前記命令を呼び出すことで、以下のような多音字発音の予測方法、すなわち、
    被処理中国語フレーズに対して元の文順に基づく単語分割処理を行い、初期分割単語を得て、予め設定されたワードスティッチングルールに応じて、前記初期分割単語をスティッチングして目標分割単語を得て、かつ前記目標分割単語に応じて文字表現ベクトルセットを単語レベル特徴表現ベクトルに変換し、
    多音字表現ベクトルと前記単語レベル特徴表現ベクトルに対して、注意力メカニズムに基づくスティッチング処理を行い、目標ベクトルを得て、
    そして、予め設定された線形層により、前記目標ベクトルの目標ピンイン確率を計算し、かつ前記目標ピンイン確率に基づいて目標多音字の目標発音を特定すること、を前記多音字発音の予測設備に実行させる、多音字発音の予測設備。
JP2021574349A 2020-12-10 2021-03-29 多音字の発音を予測する方法、装置、設備、および記憶媒体 Active JP7441864B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN202011432585.6A CN112528648A (zh) 2020-12-10 2020-12-10 多音字发音的预测方法、装置、设备及存储介质
CN202011432585.6 2020-12-10
PCT/CN2021/083522 WO2022121166A1 (zh) 2020-12-10 2021-03-29 多音字发音的预测方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
JP2023509257A JP2023509257A (ja) 2023-03-08
JP7441864B2 true JP7441864B2 (ja) 2024-03-01

Family

ID=74998777

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021574349A Active JP7441864B2 (ja) 2020-12-10 2021-03-29 多音字の発音を予測する方法、装置、設備、および記憶媒体

Country Status (3)

Country Link
JP (1) JP7441864B2 (ja)
CN (1) CN112528648A (ja)
WO (1) WO2022121166A1 (ja)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112528648A (zh) * 2020-12-10 2021-03-19 平安科技(深圳)有限公司 多音字发音的预测方法、装置、设备及存储介质
CN112989821B (zh) * 2021-04-13 2021-08-13 北京世纪好未来教育科技有限公司 多音字的注音方法及计算机存储介质
CN113268989B (zh) * 2021-05-14 2024-10-18 北京金山数字娱乐科技有限公司 多音字处理方法及装置
CN113268974B (zh) * 2021-05-18 2022-11-29 平安科技(深圳)有限公司 多音字发音标注方法、装置、设备及存储介质
CN113823259B (zh) * 2021-07-22 2024-07-02 腾讯科技(深圳)有限公司 将文本数据转换为音素序列的方法及设备
CN113657109A (zh) * 2021-08-31 2021-11-16 平安医疗健康管理股份有限公司 基于模型的临床术语的标准化方法、装置和计算机设备
CN113806479B (zh) * 2021-09-02 2024-08-02 深圳市声扬科技有限公司 文本注音的方法、装置、电子设备及存储介质
CN114417832B (zh) * 2021-12-08 2023-05-05 马上消费金融股份有限公司 消歧方法、消歧模型的训练方法及装置
CN114492418B (zh) * 2022-02-09 2024-10-18 西安讯飞超脑信息科技有限公司 文本转换方法及相关装置
CN114662478A (zh) * 2022-03-23 2022-06-24 京东科技信息技术有限公司 发音预测方法、装置、设备及存储介质
CN115273809A (zh) * 2022-06-22 2022-11-01 北京市商汤科技开发有限公司 多音字读音预测网络的训练方法、语音生成方法及装置
CN116150697A (zh) * 2023-04-19 2023-05-23 上海钐昆网络科技有限公司 一种异常应用识别方法、装置、设备、存储介质及产品
CN117592473B (zh) * 2024-01-18 2024-04-09 武汉杏仁桉科技有限公司 一种多中文词组的谐音拆分处理方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111144110A (zh) 2019-12-27 2020-05-12 科大讯飞股份有限公司 拼音标注方法、装置、服务器及存储介质
CN111599340A (zh) 2020-07-27 2020-08-28 南京硅基智能科技有限公司 一种多音字读音预测方法、装置及计算机可读存储介质
WO2020215694A1 (zh) 2019-04-22 2020-10-29 平安科技(深圳)有限公司 一种基于深度学习的中文分词方法、装置、存储介质及计算机设备
CN111967260A (zh) 2020-10-20 2020-11-20 北京金山数字娱乐科技有限公司 多音字处理方法及装置、模型训练方法及装置
CN112052331A (zh) 2019-06-06 2020-12-08 武汉Tcl集团工业研究院有限公司 一种处理文本信息的方法及终端

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3385862A1 (en) * 2017-04-03 2018-10-10 Siemens Aktiengesellschaft A method and apparatus for performing hierarchical entity classification
CN110069781B (zh) * 2019-04-24 2022-11-18 北京奇艺世纪科技有限公司 一种实体标签的识别方法及相关设备
CN111382567B (zh) * 2020-05-29 2020-08-25 恒信东方文化股份有限公司 一种中文分词和汉字多音字识别的方法及装置
CN112528648A (zh) * 2020-12-10 2021-03-19 平安科技(深圳)有限公司 多音字发音的预测方法、装置、设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020215694A1 (zh) 2019-04-22 2020-10-29 平安科技(深圳)有限公司 一种基于深度学习的中文分词方法、装置、存储介质及计算机设备
CN112052331A (zh) 2019-06-06 2020-12-08 武汉Tcl集团工业研究院有限公司 一种处理文本信息的方法及终端
CN111144110A (zh) 2019-12-27 2020-05-12 科大讯飞股份有限公司 拼音标注方法、装置、服务器及存储介质
CN111599340A (zh) 2020-07-27 2020-08-28 南京硅基智能科技有限公司 一种多音字读音预测方法、装置及计算机可读存储介质
CN111967260A (zh) 2020-10-20 2020-11-20 北京金山数字娱乐科技有限公司 多音字处理方法及装置、模型训练方法及装置

Also Published As

Publication number Publication date
WO2022121166A1 (zh) 2022-06-16
CN112528648A (zh) 2021-03-19
JP2023509257A (ja) 2023-03-08

Similar Documents

Publication Publication Date Title
JP7441864B2 (ja) 多音字の発音を予測する方法、装置、設備、および記憶媒体
JP6929466B2 (ja) 音声認識システム
CN111324744B (zh) 一种基于目标情感分析数据集的数据增强方法
JP3768205B2 (ja) 形態素解析装置、形態素解析方法及び形態素解析プログラム
CN111557029A (zh) 用于训练多语言语音识别网络的方法和系统以及用于执行多语言语音识别的语音识别系统
WO2017168252A1 (en) Method and system for processing an input query
JP2008165786A (ja) 機械翻訳用のシーケンス分類
JP2008165783A (ja) シーケンス分類のためのモデルの識別トレーニング
CN111145718A (zh) 一种基于自注意力机制的中文普通话字音转换方法
CN111401084A (zh) 一种机器翻译的方法、设备以及计算机可读存储介质
CN113268974B (zh) 多音字发音标注方法、装置、设备及存储介质
CN113655893B (zh) 一种词句生成方法、模型训练方法及相关设备
CN112527986B (zh) 多轮对话文本生成方法、装置、设备及存储介质
Moeng et al. Canonical and surface morphological segmentation for nguni languages
CN112395888A (zh) 机器翻译设备和方法
Gales et al. Low-resource speech recognition and keyword-spotting
Wang et al. Enhance the word vector with prosodic information for the recurrent neural network based TTS system
WO2019163752A1 (ja) 形態素解析学習装置、形態素解析装置、方法、及びプログラム
Route et al. Multimodal, multilingual grapheme-to-phoneme conversion for low-resource languages
Alisamir et al. An end-to-end deep learning model to recognize Farsi speech from raw input
WO2001016794A1 (fr) Procede et dispositif informatique et support d'enregistrement
Scharenborg et al. Building an asr system for mboshi using a cross-language definition of acoustic units approach
Mirishkar et al. An investigation of hybrid architectures for low resource multilingual speech recognition system in indian context
CN114896404A (zh) 文档分类方法及装置
Sharma et al. Language identification for hindi language transliterated text in roman script using generative adversarial networks

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211214

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211214

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230314

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20230509

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230614

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20231003

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231113

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240206

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240219

R150 Certificate of patent or registration of utility model

Ref document number: 7441864

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150