JP7178513B2 - ディープラーニングに基づく中国語単語分割方法、装置、記憶媒体及びコンピュータ機器 - Google Patents

ディープラーニングに基づく中国語単語分割方法、装置、記憶媒体及びコンピュータ機器 Download PDF

Info

Publication number
JP7178513B2
JP7178513B2 JP2021563188A JP2021563188A JP7178513B2 JP 7178513 B2 JP7178513 B2 JP 7178513B2 JP 2021563188 A JP2021563188 A JP 2021563188A JP 2021563188 A JP2021563188 A JP 2021563188A JP 7178513 B2 JP7178513 B2 JP 7178513B2
Authority
JP
Japan
Prior art keywords
data
convolutional neural
neural network
random field
conditional random
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021563188A
Other languages
English (en)
Other versions
JP2022530447A (ja
Inventor
▲ミン▼川 陳
駿 馬
少軍 王
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Publication of JP2022530447A publication Critical patent/JP2022530447A/ja
Application granted granted Critical
Publication of JP7178513B2 publication Critical patent/JP7178513B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)
  • Character Discrimination (AREA)

Description

本出願は、2019年04月22日に中国特許庁に提出された、出願番号が201910322127.8であり、出願名称が「ディープラーニングに基づく中国語単語分割方法及び装置」である中国特許出願の優先権を主張し、その内容の全てが本出願の一部として援用される。
本出願は、人工知能の技術分野に関し、特にディープラーニングに基づく中国語単語分割方法、装置、記憶媒体及びコンピュータ機器に関する。
従来のディープラーニングの中国語単語分割アルゴリズムは、主に、長・短期記憶(LSTM)に代表されるサイクルニューラルネットワークモデル及びその派生モデルに基づいているが、LSTMモデルのシーケンスデータ問題における処理能力は、シーケンスの長さの増加とともに減少し、中国語単語の分割精度が低いという問題がある。
以上に鑑み、従来技術で中国語の単語分割の精度が低い問題を解決するために、本出願の実施例は、ディープラーニングに基づく中国語単語分割方法、装置、記憶媒体及びコンピュータ機器を提供する。
一局面では、本出願の実施例は、ディープラーニングに基づく中国語単語分割方法を提供し、前記方法は、訓練コーパスデータを文字レベルのデータに変換するステップと、前記文字レベルのデータをシーケンスデータに変換するステップと、予め設定された符号に基づいて前記シーケンスデータを分割し、複数のサブシーケンスデータを取得し、サブシーケンスデータの長さに基づいて前記複数のサブシーケンスデータをグループ化し、K個のデータセットを得るステップであって、前記K個のデータセットのうちの各々のデータセットに含まれるサブシーケンスデータの長さが同じであり、Kは、1より大きい自然数であるステップと、i番目のデータセットから複数のサブシーケンスデータを抽出し、且つ抽出された前記複数のサブシーケンスデータをi番目のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルに入力し、前記i番目のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルを訓練し、訓練後のi番目のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルを取得し、iを順に1~Kの自然数とし、合計でK個の訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルを得るステップと、ターゲットコーパスデータを文字レベルのデータに変換し、第1データを取得し、前記第1データをシーケンスデータに変換し、第2データを取得し、前記第2データを前記K個の訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルのうちの少なくとも1つの訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルに入力し、前記ターゲットコーパスデータの単語分割結果を得るステップと、を含む。
一局面では、本出願の実施例は、ディープラーニングに基づく中国語単語分割装置を提供し、前記装置は、訓練コーパスデータを文字レベルのデータに変換するための第1変換ユニットと、前記文字レベルのデータをシーケンスデータに変換するための第2変換ユニットと、予め設定された符号に基づいて前記シーケンスデータを分割し、複数のサブシーケンスデータを取得し、サブシーケンスデータの長さに基づいて前記複数のサブシーケンスデータをグループ化し、K個のデータセットを得るための第1分割ユニットであって、前記K個のデータセットのうちの各々のデータセットに含まれるサブシーケンスデータの長さが同じであり、Kは、1より大きい自然数である第1分割ユニットと、i番目のデータセットから複数のサブシーケンスデータを抽出し、且つ抽出された前記複数のサブシーケンスデータをi番目のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルに入力し、前記i番目のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルを訓練し、訓練後のi番目のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルを取得し、iを順に1~Kの自然数とし、合計でK個の訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルを得るための第1決定ユニットと、ターゲットコーパスデータを文字レベルのデータに変換し、第1データを取得し、前記第1データをシーケンスデータに変換し、第2データを取得し、前記第2データを前記K個の訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルのうちの少なくとも1つの訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルに入力し、前記ターゲットコーパスデータの単語分割結果を得るための第2決定ユニットと、を含む。
一局面では、本出願の実施例は、記憶されるプログラムを含む記憶媒体を提供し、前記プログラムの運転中に、前記記憶媒体が位置する機器を制御して、上記のディープラーニングに基づく中国語単語分割方法を行わせる。
一局面では、本出願の実施例は、プログラム命令を含む情報を記憶するためのメモリと、プログラム命令の実行を制御するためのプロセッサと、を含むコンピュータ機器を提供し、前記プログラム命令がプロセッサによりロードされて実行されるときに、上記のディープラーニングに基づく中国語単語分割方法のステップを実施する。
本出願の実施例では、ターゲットコーパスデータを文字レベルのデータに変換し、文字レベルのデータをシーケンスデータに変換し、シーケンスデータを訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルに入力し、ターゲットコーパスデータの単語分割結果を取得し、タイミング畳み込みニューラルネットワークがネットワーク層の数を増加させることで、指数的に増加する速度で受信エリアを広げることができ、それにより、シーケンスの長さが長いシーケンスデータ又は他の特性が複雑なデータを処理でき、エンコード結果の精度を上げることにより、中国語の単語分割の精度を向上させた。
本出願の実施例の技術的解決手段をより明確に説明するために、以下では実施形態において必要とされる図面を簡単に説明するが、以下に説明される図面は本出願の一部の実施形態にすぎず、当業者にとっては、創造的な労働をせずに、これらの図面に基づいて他の図面も得ることができる。
本出願の実施例による選択可能なディープラーニングに基づく中国語単語分割方法のフローチャートである。 本出願の実施例による選択可能なディープラーニングに基づく中国語単語分割装置の模式図である。 本出願の実施例に係る選択可能なコンピュータ機器の模式図である。
本出願の技術的解決手段をよりよく理解するために、以下、図面を参照しながら本出願の実施形態を詳細に説明する。
説明される実施例は、全ての実施例ではなく、本願の一部の実施例に過ぎないことが明らかである。本出願の実施例に基づいて、当業者は、創造的な労働をせずに取得する他のすべての実施形態も、本出願の保護範囲内に属される。
本出願の実施例において使用される用語は、特定の実施例を説明するためのものに過ぎず、本出願を限定するためのものではない。本出願の実施例及び添付の特許請求の範囲において使用される単数形の「1つ」、「前記」及び「該」は、文脈が明確に他の意味を表していない限り、多数の形式を含むことが意図されている。
本明細書で用いられる用語の「及び/又は」は、関連オブジェクトを説明する関連関係に過ぎず、3つの関係が存在してもよいことを表し、例えば、「A及び/又はB」は、「Aが独立して存在する」、「A及びBが同時に存在する」、「Bが独立して存在する」の3つの状況を表してもよいと理解すべきである。また、本明細書における符号「/」は、一般的に前後の関連オブジェクトが「又は」の関係であることを表す。
図1は、本出願の実施例による選択可能なディープラーニングに基づく中国語単語分割方法のフローチャートであり、図1に示すように、当該方法は、ステップS102、ステップS104、ステップS106、ステップS108、及びステップS110を含む。
ステップS102において、訓練コーパスデータを文字レベルのデータに変換する。
ステップS104において、文字レベルのデータをシーケンスデータに変換する。
ステップS106において、予め設定された符号に基づいてシーケンスデータを分割し、複数のサブシーケンスデータを取得し、サブシーケンスデータの長さに基づいて複数のサブシーケンスデータをグループ化し、K個のデータセットを取得し、K個のデータセットのうちの各々のデータセットに含まれるサブシーケンスデータの長さが同じである。Kは、1より大きい自然数である。予め設定された符号とは、文分割用の句読符号であり、例えば、ピリオド、疑問符、感嘆符、句読点、読点、セミコロン、コロンなどである。
ステップS108において、i番目のデータセットから複数のサブシーケンスデータを抽出し、且つ抽出された複数のサブシーケンスデータをi番目のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルに入力し、i番目のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルを訓練し、訓練後のi番目のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルを取得し、iを順に1~Kの自然数とし、合計でK個の訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルを得る。
ステップS110において、ターゲットコーパスデータを文字レベルのデータに変換し、第1データを取得し、第1データをシーケンスデータに変換し、第2データを取得し、第2データをK個の訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルのうちの少なくとも1つの訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルに入力し、ターゲットコーパスデータの単語分割結果を得る。
コーパスデータは、電子コンピュータをキャリヤーとして言語知識を運ぶ基礎リソースであり、言語の実際の使用に実際に出現した言語資料である。
タイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデル(TCN-CRF)は、タイミング畳み込みニューラルネットワーク(TCN)と条件付きランダムフィールド(CRF)との結合モデルである。タイミング畳み込みニューラルネットワークは、ディープラーニングの時間畳み込みネットワークであり、条件付きランダムフィールドは、典型的な判別式モデルである。条件付きランダムフィールドは、単語分割を文字の単語における位置の分類問題と見なし、通常、以下のように、文字の単語における位置の情報を定義する。単語頭は、一般的にBで表され、単語中は、一般的にMで表され、単語尾は、一般的にEで表され、シングルワードは、一般的にSで表され、条件付きランダムフィールドの単語分割の過程は、単語における位置をマーキングした後、BとEとの間の文字、及びSシングルワードで単語分割の結果を構成することである。例えば、単語分割すべき文は、「我愛北京天安門」であり、マーキング後、我/S愛/S北/B京/E天/B安/M門/Eになり、単語分割結果が「我/愛/北京/天安門」である。
本出願の実施例では、ターゲットコーパスデータを文字レベルのデータに変換し、文字レベルのデータをシーケンスデータに変換し、シーケンスデータを訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルに入力し、ターゲットコーパスデータの単語分割結果を取得する。タイミング畳み込みニューラルネットワークは、ネットワーク層の数を増加させることで、指数的に増加する速度で受信エリアを広げることができ、それにより、シーケンスの長さが長いシーケンスデータ又は特性が他の複雑なデータを処理でき、エンコード結果の精度を上げることにより、中国語の単語分割の精度を向上させる。
また、タイミング畳み込みニューラルネットワークにおける同じ特徴マッピング面のニューロンの重みが同じであり、並行学習でき、処理速度が速く、従って、タイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルは、分散型システムにおいて実現することができる。
任意選択的には、文字レベルのデータをシーケンスデータに変換するステップは、ワンホットエンコーディング又は単語のベクトルエンコーディングのいずれかである予め設定されたエンコーディング方式により文字レベルのデータをシーケンスデータに変換するステップを含む。
ワンホットエンコーディングとは、One-Hotエンコーディングであり、ワンビット有効エンコーディングとも呼ばれる。その方法は、Nビットのステータスレジスタを用いてN個のステータをエンコーディングすることである。各ステータは、いずれも、独立したレジスタビットを有し、且つ任意の時点に、1ビットだけが有効である。例えば、1組のデータの特徴が色であり、黄色、赤色、緑色を含むと、ワンホットエンコーディングを用いた後、黄色が[100」になり、赤色が[010」になり、緑色が[001」になり、このように、ワンホットエンコーディング済みのシーケンスデータは、ベクトルに対応し、ニューラルネットワークモデルに用いることができる。
単語のベクトルエンコーディングは、word2vecであってもよく、word2vecは、単語を実数値ベクトルとして表現する高効率アルゴリズムモデルであり、訓練により、テキストコンテンツに対する処理をK次元のベクトル空間におけるベクトル計算に簡略化することができる。word2vecにより出力された単語ベクトルは、多くのNLP(神経言語プログラミング)に関連する作業、例えばクラスタリング、類義語検索、品性分析などに用いられることができる。例えば、word2vecは、文字レベルのデータを特徴とし、特徴をK次元のベクトル空間にマッピングし、特徴で表現されるシーケンスデータを得る。
任意選択的には、抽出された複数のサブシーケンスデータをi番目のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルに入力し、i番目のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルを訓練し、訓練後のi番目のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルを得るステップは、i番目のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルにおけるタイミング畳み込みニューラルネットワークであるi番目のタイミング畳み込みニューラルネットワークに抽出された複数のサブシーケンスデータを入力してフォワード伝播を行い、第1出力データを得るステップS1と、第1出力データと入力された複数のサブシーケンスデータに基づいて損失関数の値を計算するステップS2と、損失関数の値がデフォルト値より大きいと、複数のサブシーケンスデータをi番目のタイミング畳み込みニューラルネットワークに入力してバックワード伝播を行い、i番目のタイミング畳み込みニューラルネットワークのネットワークパラメータを最適化させるステップS3と、損失関数の値がデフォルト値以下になるまで、ステップS1~S3を繰り返すステップS4と、損失関数の値がデフォルト値以下になると、訓練完了を決定し、訓練後のi番目のタイミング畳み込みニューラルネットワークを得るステップS5と、i番目のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルにおける条件付きランダムフィールドであるi番目の条件付きランダムフィールドに、訓練後のi番目のタイミング畳み込みニューラルネットワークから出力されたデータを入力し、且つi番目の条件付きランダムフィールドを訓練し、訓練後のi番目のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルを得るステップS6と、を含む。
損失関数の値に基づいてi番目のタイミング畳み込みニューラルネットワークを訓練するステップは、具体的には、i番目のタイミング畳み込みニューラルネットワークのネットワークパラメータを初期化し、ランダム勾配降下法を用いてi番目のタイミング畳み込みニューラルネットワークを反復訓練し、1回反復するたびに1回損失関数の値を計算し、損失関数の値が最小になるまで複数回反復し、訓練完了後のi番目のタイミング畳み込みニューラルネットワーク及び対応する収束されたネットワークパラメータを得るステップを含む。
具体的に、損失関数を計算する式は、以下の式(次に挿入された数1)であり得る。
Figure 0007178513000001
Lossは、損失関数の値を表し、Nは、i番目のタイミング畳み込みニューラルネットワークに入力されたサブシーケンスデータの数を表し、y(i)は、i番目のタイミング畳み込みニューラルネットワークに入力されたi番目のサブシーケンスデータを表し、次に挿入された数2は、i番目のサブシーケンスデータがi番目のタイミング畳み込みニューラルネットワークに入力された後に出力されたデータを表す。
Figure 0007178513000002
任意選択的には、i番目の条件付きランダムフィールドを訓練するステップは、訓練後のi番目のタイミング畳み込みニューラルネットワークから出力されたデータに基づいて、i番目の条件付きランダムフィールドの出力データの条件確率を計算するステップと、最尤推定方法を用いて訓練してi番目の条件付きランダムフィールドの出力データの条件確率の最大値を得るステップと、を含む。
条件付きランダムフィールドは、ランダム変数Xが与えられた条件において、ランダム変数Yのマルコフランダムフィールドであり、マルコフランダムフィールドのあるランダム変数は、その隣接するランダム変数だけに関係し、それらの隣接していないランダム変数とは無関係である。
条件確率モデルP(Y|X)では、Yは、出力変数であり、マーキングシーケンスを表し、状態シーケンスとも呼ばれ、Xは、入力変数であり、マーキングすべき観測シーケンスを表す。訓練際に訓練データを用い、最尤推定により条件確率モデルを取得し、次に該モデルで予測し、与えられた入力配列Xの場合、条件確率が最大のときの出力シーケンスは、Yである。一般的には、リニアチェーンの条件付きランダムフィールドを用い、入力されたシーケンスは、X=(X1,X2,…,Xn)であり、出力されたシーケンスY=(Y1,Y2,…,Yn)は、リニアチェーンで表れるランダム変数シーケンスであり、ランダム変数シーケンスXが与えられた条件において、ランダム変数シーケンスYの条件確率分布P(Y|X)は、条件付きランダムフィールドを構成する。
最尤推定とは、複数回の試験を行い、その結果を観察し、試験結果を用い、サンプルの出現確率を最大にできるあるパラメータ値を得るというものである。最尤推定は、観測データを与えてモデルパラメータを推定する方法であり、すなわち、「モデルが既知、パラメータが未知である」。既知のサンプルデータは、X=(X1,X2,…,Xn)であり、nは、サンプルデータの数であり、パラメータtを推定し、Xに対するtの尤度関数は、次の数3で示される。
Figure 0007178513000003
ただし、iは、値が1~nの自然数であり、t’は、パラメータ空間における尤度関数f(t)を最大にできるt値であると、t’は、「最可能な」パラメータであり、t’は、tの最尤推定量である。
任意選択的には、第2データをK個の訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルのうちの少なくとも1つの訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルに入力し、ターゲットコーパスデータの単語分割結果を得るステップは、予め設定された符号に基づいて第2データを分割し、複数のシーケンスデータを得るステップと、シーケンスデータの長さに基づいて複数のシーケンスデータをグループ化し、L個のデータセットを得るステップであって、L個のデータセットのうちの各々のデータセットに含まれるすべてのシーケンスデータの長さが同じであり、Lは、自然数であり、1≦L≦Kステップと、訓練過程に使用されたサブシーケンスデータの長さに基づいてK個の訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルから、L個の訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルをスクリーニングし、L1番目~LL番目の訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルを取得し取得し、j番目のデータセットに含まれるすべてのシーケンスデータをLj番目の訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルに入力し、複数の単語分割結果を得るステップと、複数の単語分割結果をスティッチングし、ターゲットコーパスデータの単語分割結果を得るステップと、を含む。ここで、Lj番目の訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルの訓練過程に使用されたサブシーケンスデータの長さは、j番目のデータセットに含まれるシーケンスデータの長さと同じであり、jは順に1~Lの自然数であり、Ljは1~Kの自然数である。
例えば、Kの値を5とすると、5つの訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルが訓練際に使用するサブシーケンスの長さがそれぞれ10、20、30、40、50であり、第2データを分割した後、長さがそれぞれ20及び50の2つのシーケンスデータを取得する。取得し、次に、訓練過程に使用されたサブシーケンスデータの長さ20及び50に基づいて、5つの訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルから、2つの訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルをスクリーニングし、スクリーニングされた1番目の訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルの訓練過程に使用されたサブシーケンスデータの長さが20であり、スクリーニングされた2番目の訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルの訓練過程に使用されたサブシーケンスデータの長さが50であり、シーケンスデータの長さが20のデータを1番目の訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルに入力し、複数の単語分割結果を得る。シーケンスデータの長さが50のデータを2番目の訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルに入力し、複数の単語分割結果を得る。1番目の訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルから出力された複数の単語分割結果と、2番目の訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルから出力された複数の単語分割結果とをスティッチングし、ターゲットコーパスデータの単語分割結果を得る。
図2は、本出願の実施例による選択可能なディープラーニングに基づく中国語単語分割装置の模式図である。該装置は、上記ディープラーニングに基づく中国語単語分割方法を実行するためのものであり、図2に示すように、該装置は、第1変換ユニット10、第2変換ユニット20、第1分割ユニット30、第1決定ユニット40、及び第2決定ユニット50を含む。
第1変換ユニット10は、訓練コーパスデータを文字レベルのデータに変換するために用いられる。
第2変換ユニット20は、文字レベルのデータをシーケンスデータに変換するために用いられる。
第1分割ユニット30は、予め設定された符号に基づいてシーケンスデータを分割し、複数のサブシーケンスデータを取得し、サブシーケンスデータの長さに基づいて複数のサブシーケンスデータをグループ化し、K個のデータセットを取得し、K個のデータセットのうちの各々のデータセットに含まれるサブシーケンスデータの長さが同じである。Kは、1より大きい自然数である。予め設定された符号とは、文分割用の句読符号であり、例えば、ピリオド、疑問符、感嘆符、句読点、読点、セミコロン、コロンなどである。
第1決定ユニット40は、i番目のデータセットから複数のサブシーケンスデータを抽出し、且つ抽出された複数のサブシーケンスデータをi番目のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルに入力し、i番目のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルを訓練し、訓練後のi番目のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルを取得し、iを順に1~Kの自然数とし、合計でK個の訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルを得るために用いられる。
第2決定ユニット50は、ターゲットコーパスデータを文字レベルのデータに変換し、第1データを取得し取得し、第1データをシーケンスデータに変換し、第2データを取得し、第2データをK個の訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルのうちの少なくとも1つの訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルに入力し、ターゲットコーパスデータの単語分割結果を得るために用いられる。
コーパスデータは、電子コンピュータをキャリヤーとして言語知識を運ぶ基礎リソースであり、言語の実際の使用に実際に出現した言語資料である。
タイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデル(TCN-CRF)は、タイミング畳み込みニューラルネットワーク(TCN)と条件付きランダムフィールド(CRF)との結合モデルである。タイミング畳み込みニューラルネットワークは、ディープラーニングの時間畳み込みネットワークであり、条件付きランダムフィールドは、典型的な判別式モデルであり、条件付きランダムフィールドは、単語分割を文字の単語における位置の分類問題と見なし、通常、以下のように、文字の単語における位置の情報を定義する。単語頭は、一般的にBで表され、単語中は、一般的にMで表され、単語尾は、一般的にEで表され、シングルワードは、一般的にSで表され、条件付きランダムフィールドの単語分割の過程は、単語における位置をマーキングした後、BとEとの間の文字、及びSシングルワードで単語分割の結果を構成することである。例えば、単語分割すべき文は、「我愛北京天安門」であり、マーキング後、我/S愛/S北/B京/E天/B安/M門/Eになり、単語分割結果が「我/愛/北京/天安門」である。
本出願の実施例では、ターゲットコーパスデータを文字レベルのデータに変換し、文字レベルのデータをシーケンスデータに変換し、シーケンスデータを訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルに入力し、ターゲットコーパスデータの単語分割結果を取得する。タイミング畳み込みニューラルネットワークは、ネットワーク層の数を増加させることで、指数的に増加する速度で受信エリアを広げることができ、それにより、シーケンスの長さが長いシーケンスデータ又は特性が他の複雑なデータを処理でき、エンコード結果の精度を向上させ、それにより、中国語の単語分割の精度を向上させる。
また、タイミング畳み込みニューラルネットワークにおける同じ特徴マッピング面のニューロンの重みが同じであり、並行学習でき、処理速度が速く、従って、タイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルは、分散型システムにおいて実現することができる。
任意選択的には、第2変換ユニット20は、サブ変換ユニットを含む。サブ変換ユニットは、ワンホットエンコーディング又は単語のベクトルエンコーディングのいずれかである予め設定されたエンコーディング方式により文字レベルのデータをシーケンスデータに変換するために用いられる。
任意選択的には、第1決定ユニット40は、i番目のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルにおけるタイミング畳み込みニューラルネットワークであるi番目のタイミング畳み込みニューラルネットワークに、抽出された複数のサブシーケンスデータを入力してフォワードワード伝播を行い、第1出力データを得るステップS1と、第1出力データと入力された複数のサブシーケンスデータに基づいて損失関数の値を計算するステップS2と、損失関数の値がデフォルト値より大きいと、複数のサブシーケンスデータをi番目のタイミング畳み込みニューラルネットワークに入力してバックワード伝播を行い、i番目のタイミング畳み込みニューラルネットワークのネットワークパラメータを最適化させるステップS3と、損失関数の値がデフォルト値以下になるまで、ステップS1~S3を繰り返すステップS4と、損失関数の値がデフォルト値以下になると、訓練完了を決定し、訓練後のi番目のタイミング畳み込みニューラルネットワークを得るステップS5と、i番目のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルにおける条件付きランダムフィールドであるi番目の条件付きランダムフィールドに、訓練後のi番目のタイミング畳み込みニューラルネットワークから出力されたデータを入力し、i番目の条件付きランダムフィールドを訓練し、訓練後のi番目のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルを得るステップS1と、を実行するためのものである。
任意選択的には、第1決定ユニットは、第1サブ計算ユニットと、第1サブ決定ユニットと、を含む。第1サブ計算ユニットは、訓練後のi番目のタイミング畳み込みニューラルネットワークから出力されたデータに基づいて、i番目の条件付きランダムフィールドの出力データの条件確率を計算するために用いられる。第1サブ決定ユニットは、最尤推定方法を用いて訓練してi番目の条件付きランダムフィールドの出力データの条件確率の最大値を得るために用いられる。
任意選択的には、第2決定ユニット50は、サブ分割ユニットと、サブグループ化ユニットと、第2サブ決定ユニットと、サブスティッチングユニットと、を含む。サブ分割ユニットは、予め設定された符号に基づいて第2データを分割し、複数のシーケンスデータを得るために用いられる。サブグループ化ユニットは、シーケンスデータの長さに基づいて複数のシーケンスデータをグループ化し、L個のデータセットを得るために用いられ、L個のデータセットのうちの各々のデータセットに含まれるすべてのシーケンスデータの長さが同じであり、Lは、自然数であり、1≦L≦K。第2サブ決定ユニットは、訓練過程に使用されたサブシーケンスデータの長さに基づいてK個の訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルから、L個の訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルをスクリーニングし、L1番目~LL番目の訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルを取得し、j番目のデータセットに含まれるすべてのシーケンスデータをLj番目の訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルに入力し、複数の単語分割結果を得るために用いられる。ここで、Lj番目の訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルの訓練過程に使用されたサブシーケンスデータの長さはj番目のデータセットに含まれるシーケンスデータの長さと同じであり、jは順に1~Lの自然数であり、Ljは1~Kの自然数である。サブスティッチングユニットは、複数の単語分割結果をスティッチングし、ターゲットコーパスデータの単語分割結果を得るために用いられる。
一局面では、本出願の実施例は、記憶されるプログラムを含む記憶媒体を提供し、プログラムの運転中に、記憶媒体が位置する機器を制御して、訓練コーパスデータを文字レベルのデータに変換するステップと、文字レベルのデータをシーケンスデータに変換するステップと、予め設定された符号に基づいてシーケンスデータを分割し、複数のサブシーケンスデータを取得し、サブシーケンスデータの長さに基づいて複数のサブシーケンスデータをグループ化し、K個のデータセットを得るステップであって、K個のデータセットのうちの各々のデータセットに含まれるサブシーケンスデータの長さが同じであり、Kは、1より大きい自然数であるステップと、i番目のデータセットから複数のサブシーケンスデータを抽出し、抽出した複数のサブシーケンスデータをi番目のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルに入力し、i番目のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルを訓練し、訓練後のi番目のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルを取得し取得し、iを順に1~Kの自然数とし、合計でK個の訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルを得るステップと、ターゲットコーパスデータを文字レベルのデータに変換し、第1データを取得し、第1データをシーケンスデータに変換し、第2データを取得し、第2データをK個の訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルのうちの少なくとも1つの訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルに入力し、ターゲットコーパスデータの単語分割結果を得るステップと、を行わせる。
任意選択的には、プログラムの運転中に、記憶媒体が位置する機器を制御して、ワンホットエンコーディング又は単語のベクトルエンコーディングのいずれかである予め設定されたエンコーディング方式により文字レベルのデータをシーケンスデータに変換するステップを、さらに行わせる。
任意選択的には、プログラムの運転中に、記憶媒体が位置する機器を制御して、i番目のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルにおけるタイミング畳み込みニューラルネットワークであるi番目のタイミング畳み込みニューラルネットワークに、抽出された複数のサブシーケンスデータを入力してフォワードワード伝播を行い、第1出力データを得るステップS1と、第1出力データと入力された複数のサブシーケンスデータに基づいて損失関数の値を計算するステップS2と、損失関数の値がデフォルト値より大きいと、複数のサブシーケンスデータをi番目のタイミング畳み込みニューラルネットワークに入力してバックワード伝播を行い、且つi番目のタイミング畳み込みニューラルネットワークのネットワークパラメータを最適化するステップS3と、損失関数の値がデフォルト値以下になるまで、ステップS1~S3を繰り返すステップS4と、損失関数の値がデフォルト値以下になると、訓練完了を決定し、訓練後のi番目のタイミング畳み込みニューラルネットワークを得るステップS5と、i番目のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルにおける条件付きランダムフィールドであるi番目の条件付きランダムフィールドに、訓練後のi番目のタイミング畳み込みニューラルネットワークから出力されたデータを入力し、且つi番目の条件付きランダムフィールドを訓練し、訓練後のi番目のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルを得るステップS6と、をさらに行わせる。
任意選択的には、プログラムの運転中に、記憶媒体が位置する機器を制御して、訓練後のi番目のタイミング畳み込みニューラルネットワークから出力されたデータに基づいて、i番目の条件付きランダムフィールドの出力データの条件確率を計算するステップと、最尤推定方法を用いて訓練してi番目の条件付きランダムフィールドの出力データの条件確率の最大値を得るステップと、をさらに行わせる。
任意選択的には、プログラムの運転中に、記憶媒体が位置する機器を制御して、予め設定された符号に基づいて第2データを分割し、複数のシーケンスデータを得るステップと、シーケンスデータの長さに基づいて複数のシーケンスデータをグループ化し、L個のデータセットを得るステップであって、L個のデータセットのうちの各々のデータセットに含まれるすべてのシーケンスデータの長さが同じであり、Lは、自然数であり、1≦L≦Kステップと、訓練過程に使用されたサブシーケンスデータの長さに基づいてK個の訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルから、L個の訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルをスクリーニングし、L1番目~LL番目の訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルを取得し、j番目のデータセットに含まれるすべてのシーケンスデータをLj番目の訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルに入力し、複数の単語分割結果を得るステップと、複数の単語分割結果をスティッチングし、ターゲットコーパスデータの単語分割結果を得るステップと、をさらに行わせる。ここで、Lj番目の訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルの訓練過程に使用されたサブシーケンスデータの長さは、j番目のデータセットに含まれるシーケンスデータの長さと同じであり、jは順に1~Lの自然数であり、Ljは1~Kの自然数である。
一局面では、本出願の実施例は、プログラム命令を含む情報を記憶するためのメモリと、プログラム命令の実行を制御するためのプロセッサと、を含むコンピュータ機器を提供し、プログラム命令がプロセッサによりロードされて実行されると、訓練コーパスデータを文字レベルのデータに変換するステップと、文字レベルのデータをシーケンスデータに変換するステップと、予め設定された符号に基づいてシーケンスデータを分割し、複数のサブシーケンスデータを取得し、サブシーケンスデータの長さに基づいて複数のサブシーケンスデータをグループ化し、K個のデータセットを得るステップであって、K個のデータセットのうちの各々のデータセットに含まれるサブシーケンスデータの長さが同じであり、Kは、1より大きい自然数であるステップと、i番目のデータセットから複数のサブシーケンスデータを抽出し、抽出した複数のサブシーケンスデータをi番目のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルに入力し、i番目のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルを訓練し、訓練後のi番目のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルを得るステップであって、iを順に1~Kの自然数とし、合計でK個の訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルを得るステップと、ターゲットコーパスデータを文字レベルのデータに変換し、第1データを取得し、第1データをシーケンスデータに変換し、第2データを取得し、第2データをK個の訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルのうちの少なくとも1つの訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルに入力し、ターゲットコーパスデータの単語分割結果を得るステップと、を実施する。
任意選択的には、プログラム命令がプロセッサによりロードされて実行されるときに、ワンホットエンコーディング又は単語のベクトルエンコーディングのいずれかである予め設定されたエンコーディング方式により文字レベルのデータをシーケンスデータに変換するステップを、さらに実施する。
任意選択的には、プログラム命令がプロセッサによりロードされて実行されると、i番目のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルにおけるタイミング畳み込みニューラルネットワークであるi番目のタイミング畳み込みニューラルネットワークに、抽出された複数のサブシーケンスデータを入力してフォワードワード伝播を行い、第1出力データを得るステップS1と、第1出力データと入力された複数のサブシーケンスデータに基づいて損失関数の値を計算するステップS2と、損失関数の値がデフォルト値より大きいと、複数のサブシーケンスデータをi番目のタイミング畳み込みニューラルネットワークに入力してバックワード伝播を行い、且つi番目のタイミング畳み込みニューラルネットワークのネットワークパラメータを最適化するステップS3と、損失関数の値がデフォルト値以下になるまで、ステップS1~S3を繰り返すステップS4と、損失関数の値がデフォルト値以下になると、訓練完了を決定し、訓練後のi番目のタイミング畳み込みニューラルネットワークを得るステップS5と、i番目のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルにおける条件付きランダムフィールドであるi番目の条件付きランダムフィールドに、訓練後のi番目のタイミング畳み込みニューラルネットワークから出力されたデータを入力し、且つi番目の条件付きランダムフィールドを訓練し、訓練後のi番目のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルを得るステップS6と、をさらに実施する。
任意選択的には、プログラム命令がプロセッサによりロードされて実行されるときに、訓練後のi番目のタイミング畳み込みニューラルネットワークから出力されたデータに基づいて、i番目の条件付きランダムフィールドの出力データの条件確率を計算するステップと、最尤推定方法を用いて訓練してi番目の条件付きランダムフィールドの出力データの条件確率の最大値を得るステップと、をさらに実施する。
任意選択的には、プログラム命令がプロセッサによりロードされて実行されるときに、予め設定された符号に基づいて第2データを分割し、複数のシーケンスデータを得るステップと、シーケンスデータの長さに基づいて複数のシーケンスデータをグループ化し、L個のデータセットを得るステップであって、L個のデータセットのうちの各々のデータセットに含まれるすべてのシーケンスデータの長さが同じであり、Lは、自然数であり、1≦L≦Kステップと、訓練過程に使用されたサブシーケンスデータの長さに基づいてK個の訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルから、L個の訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルをスクリーニングし、L1番目~LL番目の訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルを取得し、j番目のデータセットに含まれるすべてのシーケンスデータをLj番目の訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルに入力し、複数の単語分割結果を得るステップと、複数の単語分割結果をスティッチングし、ターゲットコーパスデータの単語分割結果を得るステップを、さらに実施する。ここで、Lj番目の訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルの訓練過程に使用されたサブシーケンスデータの長さは、j番目のデータセットに含まれるシーケンスデータの長さと同じであり、jは順に1~Lの自然数であり、Ljは1~Kの自然数である。
図3は、本出願の実施例に係るコンピュータ機器の模式図である。図3に示すように、該実施例のコンピュータ機器50は、プロセッサ51、メモリ52と、メモリ52に記憶され、プロセッサ51において実行可能なコンピュータプログラム53と、を含み、該コンピュータプログラム53は、プロセッサ51により実行されるときに、実施例におけるディープラーニングに基づく中国語単語分割方法を実施する。重複を避けるために、ここでは、その詳細を述べない。又は、該コンピュータプログラムがプロセッサ51により実行されるときに、実施例のディープラーニングに基づく中国語単語分割装置における各モデル/ユニットの機能を実施する。重複を避けるために、ここでは、その詳細を述べない。
コンピュータ機器50はデスクトップコンピュータ、ノート、パームトップパソコン及びクラウドサーバなどのコンピューティングデバイスであってもよい。コンピュータ機器は、プロセッサ51、メモリ52を含むがこれらに限定されるものではない。当業者であれば理解できるように、図3はコンピュータ機器50の例に過ぎず、コンピュータ機器50を限定するものではなく、図示より多く又は少ないユニットをさらに備えてもよいし、ある部材の組み合わせであってもよいし、異なる部材であってもよい。例えば、コンピュータ機器は、入出力デバイス、ネットワークアクセスデバイス、バスなどを含んでもよい。
いわゆるプロセッサ51は、中央処理ユニット(Central Processing Unit、CPU)であってもよいし、その他の汎用プロセッサ、デジタル信号プロセッサ(Digital Signal Processor、DSP)、専用集積回路(Application Specific Integrated Circuit、ASIC)、フィールドプログラマブルゲートアレイ(Field-Programmable Gate Array、FPGA)又はその他のプログラマブル論理デバイス、ディスクリートゲート又はトランジスタ論理デバイス、ディスクリートハードウェアユニットなどであってもよい。汎用プロセッサは、マイクロプロセッサであってもよいし、いかなる通常のプロセッサなどであってもよい。
メモリ52は、例えば、コンピュータ機器50のハードディスク又はメモリなどのコンピュータ機器50の内部記憶ユニットであってもよい。メモリ52は、コンピュータ機器50の外部記憶デバイス、例えば、コンピュータ機器50に配置されたプラグインハードディスク、スマートメモリカード(Smart Media Card、SMC)、セキュアデジタル(Secure Digital、SD)カード、フラッシュカード(Flash Card)などであってもよい。さらに、メモリ52は、コンピュータ機器50の内部記憶ユニットを含んでもよいし、外部記憶デバイスを含んでもよい。メモリ52は、コンピュータプログラム及びコンピュータ機器に必要な他のプログラム及びデータを記憶するために用いられる。メモリ52は、さらに、出力済み又は出力対象のデータを一時的に記憶するために用いられてもよい。
当業者であれば明らかに理解できるように、説明の便利及び簡潔のために、上記に説明されたシステム、装置及びユニットの具体的な動作過程は、前述の方法実施例における対応するプロセスを参照することができ、ここでは説明を省略する。
本出願に係る複数の実施例では、提供されるシステム、装置及び方法は他の形態で実施されてもよいことを理解されたい。例えば、上述の装置の実施例は単なる例示である。例えば、前記ユニットの分割は論理的な機能分割のみであり、実際の実施中には他の分割形態もあり得る。例えば、複数のユニットまたはコンポーネントを組み合わせたり、他のシステムに集積したり、あるいは一部の特徴は無視、省略される、または実行されなくてもよい。さらに、図示または説明した結合又は直接結合又は通信接続は、いくつかのインタフェース、装置またはユニットを介した間接カプリングまたは通信接続でもよく、電気接続、機械接続または他の形態での接続でもよい。
以上は本出願の好ましい実施例に過ぎず、本出願を限定するものではなく、本出願の精神及び原則内で、行われたいかなる修正、同等置換や改善などは、いずれも本出願の保護範囲内に含まれるべきである。

Claims (10)

  1. ディープラーニングに基づく中国語単語分割方法であって、
    訓練コーパスデータを文字レベルのデータに変換するステップと、
    前記文字レベルのデータをシーケンスデータに変換するステップと、
    予め設定された符号に基づいて前記シーケンスデータを分割し、複数のサブシーケンスデータを取得し、サブシーケンスデータの長さに基づいて前記複数のサブシーケンスデータをグループ化し、K個のデータセットを得るステップであって、前記K個のデータセットのうちの各々のデータセットに含まれるサブシーケンスデータの長さが同じであり、Kは、1より大きい自然数であるステップと、
    i番目のデータセットから複数のサブシーケンスデータを抽出し、抽出した前記複数のサブシーケンスデータをi番目のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルに入力し、前記i番目のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルを訓練し、訓練後のi番目のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルを取得し、iを順に1~Kの自然数とし、合計でK個の訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルを得るステップと、
    ターゲットコーパスデータを文字レベルのデータに変換し、第1データを取得し、前記第1データをシーケンスデータに変換し、第2データを取得し、前記第2データを前記K個の訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルのうちの少なくとも1つの訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルに入力し、前記ターゲットコーパスデータの単語分割結果を得るステップと、
    を含むことを特徴とするディープラーニングに基づく中国語単語分割方法。
  2. 前記文字レベルのデータをシーケンスデータに変換する前記ステップは、
    ワンホットエンコーディング又は単語のベクトルエンコーディングのいずれかである予め設定されたエンコーディング方式により前記文字レベルのデータを前記シーケンスデータに変換する、ことを特徴とする請求項1に記載のディープラーニングに基づく中国語単語分割方法。
  3. 抽出された前記複数のサブシーケンスデータをi番目のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルに入力し、前記i番目のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルを訓練し、訓練後のi番目のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルを得る前記ステップは、
    前記i番目のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルにおけるタイミング畳み込みニューラルネットワークであるi番目のタイミング畳み込みニューラルネットワークに、抽出された前記複数のサブシーケンスデータを入力してフォワード伝播を行い、第1出力データを得るステップS1と、
    前記第1出力データ及び入力された前記複数のサブシーケンスデータに基づいて損失関数の値を計算するステップS2と、
    前記損失関数の値がデフォルト値より大きいと、前記複数のサブシーケンスデータを前記i番目のタイミング畳み込みニューラルネットワークに入力してバックワード伝播を行い、且つ前記i番目のタイミング畳み込みニューラルネットワークのネットワークパラメータを最適化するステップS3と、
    前記損失関数の値が前記デフォルト値以下になるまで、ステップS1~S3を繰り返すステップS4と、
    前記損失関数の値が前記デフォルト値以下になると、訓練完了を決定し、訓練後のi番目のタイミング畳み込みニューラルネットワークを得るステップS5と、
    前記i番目のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルにおける条件付きランダムフィールドであるi番目の条件付きランダムフィールドに、前記訓練後のi番目のタイミング畳み込みニューラルネットワークから出力されたデータを入力し、且つ前記i番目の条件付きランダムフィールドを訓練し、前記訓練後のi番目のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルを得るステップS6と、を含む、ことを特徴とする請求項1に記載のディープラーニングに基づく中国語単語分割方法。
  4. 前記i番目の条件付きランダムフィールドを訓練する前記ステップは、
    前記訓練後のi番目のタイミング畳み込みニューラルネットワークから出力されたデータに基づいて、前記i番目の条件付きランダムフィールドの出力データの条件確率を計算するステップと、
    最尤推定方法を用いて訓練して、前記i番目の条件付きランダムフィールドの出力データの条件確率の最大値を得るステップと、を含む、ことを特徴とする請求項3に記載のディープラーニングに基づく中国語単語分割方法。
  5. 前記第2データを前記K個の訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルのうちの少なくとも1つの訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルに入力し、前記ターゲットコーパスデータの単語分割結果を得る前記ステップは、
    予め設定された符号に基づいて前記第2データを分割し、複数のシーケンスデータを得るステップと、
    シーケンスデータの長さに基づいて前記複数のシーケンスデータをグループ化し、L個のデータセットを得るステップであって、前記L個のデータセットのうちの各々のデータセットに含まれるすべてのシーケンスデータの長さが同じであり、Lは、自然数であり、1≦L≦Kステップと、
    訓練過程に使用されたサブシーケンスデータの長さに基づいて前記K個の訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルから、L個の訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルをスクリーニングし、L1番目~LL番目の訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルを取得し、j番目のデータセットに含まれるすべてのシーケンスデータをLj番目の訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルに入力し、複数の単語分割結果を得るステップと、
    前記複数の単語分割結果をスティッチングし、前記ターゲットコーパスデータの単語分割結果を得るステップと、を含み、
    ここで、前記Lj番目の訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルの訓練過程に使用されたサブシーケンスデータの長さは、前記j番目のデータセットに含まれるシーケンスデータの長さと同じであり、jは順に1~Lの自然数であり、Ljは1~Kの自然数であることを特徴とする請求項1~4のいずれかに記載のディープラーニングに基づく中国語単語分割方法。
  6. ディープラーニングに基づく中国語単語分割装置であって、
    訓練コーパスデータを文字レベルのデータに変換するための第1変換ユニットと、
    前記文字レベルのデータをシーケンスデータに変換するための第2変換ユニットと、
    予め設定された符号に基づいて前記シーケンスデータを分割し、複数のサブシーケンスデータを取得し、サブシーケンスデータの長さに基づいて前記複数のサブシーケンスデータをグループ化し、K個のデータセットを得る第1分割ユニットであって、前記K個のデータセットのうちの各々のデータセットに含まれるサブシーケンスデータの長さが同じであり、Kは、1より大きい自然数である第1分割ユニットと、
    i番目のデータセットから複数のサブシーケンスデータを抽出し、且つ抽出された前記複数のサブシーケンスデータをi番目のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルに入力し、前記i番目のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルを訓練し、訓練後のi番目のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルを取得し、iを順に1~Kの自然数とし、合計でK個の訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルを得るための第1決定ユニットと、
    前記ターゲットコーパスデータを文字レベルのデータに変換し、第1データを取得し、前記第1データをシーケンスデータに変換し、第2データを取得し、前記第2データを前記K個の訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルのうちの少なくとも1つの訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルに入力し、前記ターゲットコーパスデータの単語分割結果を得るための第2決定ユニットと、を含む、ことを特徴とするディープラーニングに基づく中国語単語分割装置。
  7. 前記第1決定ユニットは、
    前記i番目のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルにおけるタイミング畳み込みニューラルネットワークであるi番目のタイミング畳み込みニューラルネットワークに、抽出された前記複数のサブシーケンスデータを入力してフォワード伝播を行い、第1出力データを得るステップS1と、
    前記第1出力データ及び入力された前記複数のサブシーケンスデータに基づいて損失関数の値を計算するステップS2と、
    前記損失関数の値がデフォルト値より大きいと、前記複数のサブシーケンスデータを前記i番目のタイミング畳み込みニューラルネットワークに入力してバックワード伝播を行い、且つ前記i番目のタイミング畳み込みニューラルネットワークのネットワークパラメータを最適化するステップS3と、
    前記損失関数の値が前記デフォルト値以下になるまで、ステップS1~S3を繰り返すステップS4と、
    前記損失関数の値が前記デフォルト値以下になると、訓練完了を決定し、訓練後のi番目のタイミング畳み込みニューラルネットワークを得るステップS5と、
    前記i番目のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルにおける条件付きランダムフィールドであるi番目の条件付きランダムフィールドに、前記訓練後のi番目のタイミング畳み込みニューラルネットワークから出力されたデータを入力し、且つ前記i番目の条件付きランダムフィールドを訓練し、前記訓練後のi番目のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルを得るステップS6と、を実行するために用いられる、ことを特徴とする請求項6に記載のディープラーニングに基づく中国語単語分割装置。
  8. 記憶媒体であって、前記記憶媒体は、記憶されるプログラムを含み、前記プログラムの運転中に、前記記憶媒体が位置する機器を制御して、
    訓練コーパスデータを文字レベルのデータに変換するステップと、
    前記文字レベルのデータをシーケンスデータに変換するステップと、
    予め設定された符号に基づいて前記シーケンスデータを分割し、複数のサブシーケンスデータを取得し、サブシーケンスデータの長さに基づいて前記複数のサブシーケンスデータをグループ化し、K個のデータセットを得るステップであって、前記K個のデータセットのうちの各々のデータセットに含まれるサブシーケンスデータの長さが同じであり、Kは、1より大きい自然数であるステップと、
    i番目のデータセットから複数のサブシーケンスデータを抽出し、抽出した前記複数のサブシーケンスデータをi番目のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルに入力し、前記i番目のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルを訓練し、訓練後のi番目のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルを取得し、iを順に1~Kの自然数とし、合計でK個の訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルを得るステップと、
    前記ターゲットコーパスデータを文字レベルのデータに変換し、第1データを取得し、前記第1データをシーケンスデータに変換し、第2データを取得し、前記第2データを前記K個の訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルのうちの少なくとも1つの訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルに入力し、前記ターゲットコーパスデータの単語分割結果を得るステップと、を行わせる、ことを特徴とする記憶媒体。
  9. 前記プログラムの運転中に、前記記憶媒体が位置する機器を制御して、前記抽出された前記複数のサブシーケンスデータをi番目のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルに入力し、前記i番目のタイムイング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルを訓練し、訓練後のi番目のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルを得る前記ステップを行わせるステップは、
    前記i番目のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルにおけるタイミング畳み込みニューラルネットワークであるi番目のタイミング畳み込みニューラルネットワークに、抽出された前記複数のサブシーケンスデータを入力してフォワード伝播を行い、第1出力データを得るステップS1と、
    前記第1出力データ及び入力された前記複数のサブシーケンスデータに基づいて損失関数の値を計算するステップS2と、
    前記損失関数の値がデフォルト値より大きいと、前記複数のサブシーケンスデータを前記i番目のタイミング畳み込みニューラルネットワークに入力してバックワード伝播を行い、且つ前記i番目のタイミング畳み込みニューラルネットワークのネットワークパラメータを最適化するステップS3と、
    前記損失関数の値が前記デフォルト値以下になるまで、ステップS1~S3を繰り返すステップS4と、
    前記損失関数の値が前記デフォルト値以下になると、訓練完了を決定し、訓練後のi番目のタイミング畳み込みニューラルネットワークを得るステップS5と、
    前記i番目のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルにおける条件付きランダムフィールドであるi番目の条件付きランダムフィールドに、前記訓練後のi番目のタイミング畳み込みニューラルネットワークから出力されたデータを入力し、且つ前記i番目の条件付きランダムフィールドを訓練し、前記訓練後のi番目のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルを得るステップS6と、を含む、ことを特徴とする請求項8に記載の記憶媒体。
  10. プログラム命令を含む情報を記憶するためのメモリと、プログラム命令の実行を制御するためのプロセッサと、を含むコンピュータ機器であって、前記プログラム命令がプロセッサによりロードされて実行されると、
    訓練コーパスデータを文字レベルのデータに変換するステップと、
    前記文字レベルのデータをシーケンスデータに変換するステップと、
    予め設定された符号に基づいて前記シーケンスデータを分割し、複数のサブシーケンスデータを取得し、サブシーケンスデータの長さに基づいて前記複数のサブシーケンスデータをグループ化し、K個のデータセットを得るステップであって、前記K個のデータセットのうちの各々のデータセットに含まれるサブシーケンスデータの長さが同じであり、Kは、1より大きい自然数であるステップと、
    i番目のデータセットから複数のサブシーケンスデータを抽出し、抽出した前記複数のサブシーケンスデータをi番目のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルに入力し、前記i番目のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルを訓練し、訓練後のi番目のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルを取得し、iを順に1~Kの自然数とし、合計でK個の訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルを得るステップと、
    ターゲットコーパスデータを文字レベルのデータに変換し、第1データを取得し、前記第1データをシーケンスデータに変換し、第2データを取得し、前記第2データを前記K個の訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルのうちの少なくとも1つの訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルに入力し、前記ターゲットコーパスデータの単語分割結果を得るステップと、を実施する、ことを特徴とするコンピュータ機器。
JP2021563188A 2019-04-22 2019-11-14 ディープラーニングに基づく中国語単語分割方法、装置、記憶媒体及びコンピュータ機器 Active JP7178513B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201910322127.8A CN110222329B (zh) 2019-04-22 2019-04-22 一种基于深度学习的中文分词方法和装置
CN201910322127.8 2019-04-22
PCT/CN2019/118259 WO2020215694A1 (zh) 2019-04-22 2019-11-14 一种基于深度学习的中文分词方法、装置、存储介质及计算机设备

Publications (2)

Publication Number Publication Date
JP2022530447A JP2022530447A (ja) 2022-06-29
JP7178513B2 true JP7178513B2 (ja) 2022-11-25

Family

ID=67819927

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021563188A Active JP7178513B2 (ja) 2019-04-22 2019-11-14 ディープラーニングに基づく中国語単語分割方法、装置、記憶媒体及びコンピュータ機器

Country Status (4)

Country Link
JP (1) JP7178513B2 (ja)
CN (1) CN110222329B (ja)
SG (1) SG11202111464WA (ja)
WO (1) WO2020215694A1 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110222329B (zh) * 2019-04-22 2023-11-24 平安科技(深圳)有限公司 一种基于深度学习的中文分词方法和装置
US10817665B1 (en) * 2020-05-08 2020-10-27 Coupang Corp. Systems and methods for word segmentation based on a competing neural character language model
CN112528648A (zh) * 2020-12-10 2021-03-19 平安科技(深圳)有限公司 多音字发音的预测方法、装置、设备及存储介质
CN112884087A (zh) * 2021-04-07 2021-06-01 山东大学 一种生物增强子及其类型的识别方法
CN113341919B (zh) * 2021-05-31 2022-11-08 中国科学院重庆绿色智能技术研究院 一种基于时序数据长度优化的计算系统故障预测方法
CN114863995B (zh) * 2022-03-30 2024-05-07 安徽大学 一种基于双向门控循环神经网络的沉默子预测方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008140117A (ja) 2006-12-01 2008-06-19 National Institute Of Information & Communication Technology 中国語の文字シーケンスを中国語の単語シーケンスにセグメント化するための装置
CN103020034A (zh) 2011-09-26 2013-04-03 北京大学 中文分词方法和装置
CN108268444A (zh) 2018-01-10 2018-07-10 南京邮电大学 一种基于双向lstm、cnn和crf的中文分词方法

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU4869601A (en) * 2000-03-20 2001-10-03 Robert J. Freeman Natural-language processing system using a large corpus
CN104182423A (zh) * 2013-05-27 2014-12-03 华东师范大学 一种基于条件随机场的中文人名自动识别方法
CN104268200A (zh) * 2013-09-22 2015-01-07 中科嘉速(北京)并行软件有限公司 一种基于深度学习的非监督命名实体语义消歧方法
CN107291684B (zh) * 2016-04-12 2021-02-09 华为技术有限公司 语言文本的分词方法和系统
KR102359216B1 (ko) * 2016-10-26 2022-02-07 딥마인드 테크놀로지스 리미티드 신경망을 이용한 텍스트 시퀀스 처리
CN107977354A (zh) * 2017-10-12 2018-05-01 北京知道未来信息技术有限公司 一种基于Bi-LSTM-CNN的混合语料分词方法
CN108536679B (zh) * 2018-04-13 2022-05-20 腾讯科技(成都)有限公司 命名实体识别方法、装置、设备及计算机可读存储介质
CN109086267B (zh) * 2018-07-11 2022-07-26 南京邮电大学 一种基于深度学习的中文分词方法
CN109255119B (zh) * 2018-07-18 2023-04-25 五邑大学 一种基于分词和命名实体识别的多任务深度神经网络的句子主干分析方法及系统
CN110222329B (zh) * 2019-04-22 2023-11-24 平安科技(深圳)有限公司 一种基于深度学习的中文分词方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008140117A (ja) 2006-12-01 2008-06-19 National Institute Of Information & Communication Technology 中国語の文字シーケンスを中国語の単語シーケンスにセグメント化するための装置
CN103020034A (zh) 2011-09-26 2013-04-03 北京大学 中文分词方法和装置
CN108268444A (zh) 2018-01-10 2018-07-10 南京邮电大学 一种基于双向lstm、cnn和crf的中文分词方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
WANG, Chunqi、XU, Bo,Convolutional Neural Network with Word Embeddings for Chinese Word Segmentation [Online],2017年11月13日,pp.1-10,https://arxiv.org/pdf/1711.0441v1

Also Published As

Publication number Publication date
JP2022530447A (ja) 2022-06-29
CN110222329A (zh) 2019-09-10
CN110222329B (zh) 2023-11-24
SG11202111464WA (en) 2021-11-29
WO2020215694A1 (zh) 2020-10-29

Similar Documents

Publication Publication Date Title
JP7178513B2 (ja) ディープラーニングに基づく中国語単語分割方法、装置、記憶媒体及びコンピュータ機器
US11604956B2 (en) Sequence-to-sequence prediction using a neural network model
CN111444320B (zh) 文本检索方法、装置、计算机设备和存储介质
US20200265301A1 (en) Incremental training of machine learning tools
CN111026544B (zh) 图网络模型的节点分类方法、装置及终端设备
CN111325264A (zh) 一种基于熵的多标签数据分类方法
CN115080749B (zh) 一种基于自监督训练的弱监督文本分类方法、系统和装置
CN116822651A (zh) 基于增量学习的大模型参数微调方法、装置、设备及介质
Ibragimovich et al. Effective recognition of pollen grains based on parametric adaptation of the image identification model
CN116188941A (zh) 一种基于松弛标注的流形正则化宽度学习方法及系统
CN115795065A (zh) 基于带权哈希码的多媒体数据跨模态检索方法及系统
CN116450813A (zh) 文本关键信息提取方法、装置、设备以及计算机存储介质
Lücke et al. Truncated variational sampling for ‘black box’optimization of generative models
CN113010687B (zh) 一种习题标签预测方法、装置、存储介质以及计算机设备
CN115063374A (zh) 模型训练、人脸图像质量评分方法、电子设备及存储介质
Liu et al. An improved dual-channel network to eliminate catastrophic forgetting
KR20230127509A (ko) 콘셉트 기반의 퓨샷 학습 방법 및 장치
CN114358011A (zh) 命名实体提取方法与装置以及电子设备
CN110633363B (zh) 一种基于nlp和模糊多准则决策的文本实体推荐方法
CN116029261A (zh) 中文文本语法纠错方法及相关设备
JP6993250B2 (ja) コンテンツ特徴量抽出装置、方法、及びプログラム
WO2020215581A1 (zh) 基于双向长短时记忆网络模型的中文编码方法和装置
CN113222100A (zh) 神经网络模型的训练方法和装置
CN113240565B (zh) 基于量化模型的目标识别方法、装置、设备及存储介质
US20220405599A1 (en) Automated design of architectures of artificial neural networks

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211022

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211022

TRDD Decision of grant or rejection written
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20221028

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221108

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221114

R150 Certificate of patent or registration of utility model

Ref document number: 7178513

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150