JP7178513B2

JP7178513B2 - ディープラーニングに基づく中国語単語分割方法、装置、記憶媒体及びコンピュータ機器

Info

Publication number: JP7178513B2
Application number: JP2021563188A
Authority: JP
Inventors: ▲ミン▼川陳; 駿馬; 少軍王
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-04-22
Filing date: 2019-11-14
Publication date: 2022-11-25
Anticipated expiration: 2039-11-14
Also published as: JP2022530447A; CN110222329A; CN110222329B; SG11202111464WA; WO2020215694A1

Description

本出願は、２０１９年０４月２２日に中国特許庁に提出された、出願番号が２０１９１０３２２１２７．８であり、出願名称が「ディープラーニングに基づく中国語単語分割方法及び装置」である中国特許出願の優先権を主張し、その内容の全てが本出願の一部として援用される。

本出願は、人工知能の技術分野に関し、特にディープラーニングに基づく中国語単語分割方法、装置、記憶媒体及びコンピュータ機器に関する。

従来のディープラーニングの中国語単語分割アルゴリズムは、主に、長・短期記憶（ＬＳＴＭ）に代表されるサイクルニューラルネットワークモデル及びその派生モデルに基づいているが、ＬＳＴＭモデルのシーケンスデータ問題における処理能力は、シーケンスの長さの増加とともに減少し、中国語単語の分割精度が低いという問題がある。

以上に鑑み、従来技術で中国語の単語分割の精度が低い問題を解決するために、本出願の実施例は、ディープラーニングに基づく中国語単語分割方法、装置、記憶媒体及びコンピュータ機器を提供する。

一局面では、本出願の実施例は、ディープラーニングに基づく中国語単語分割方法を提供し、前記方法は、訓練コーパスデータを文字レベルのデータに変換するステップと、前記文字レベルのデータをシーケンスデータに変換するステップと、予め設定された符号に基づいて前記シーケンスデータを分割し、複数のサブシーケンスデータを取得し、サブシーケンスデータの長さに基づいて前記複数のサブシーケンスデータをグループ化し、Ｋ個のデータセットを得るステップであって、前記Ｋ個のデータセットのうちの各々のデータセットに含まれるサブシーケンスデータの長さが同じであり、Ｋは、１より大きい自然数であるステップと、ｉ番目のデータセットから複数のサブシーケンスデータを抽出し、且つ抽出された前記複数のサブシーケンスデータをｉ番目のタイミング畳み込みニューラルネットワーク－条件付きランダムフィールドモデルに入力し、前記ｉ番目のタイミング畳み込みニューラルネットワーク－条件付きランダムフィールドモデルを訓練し、訓練後のｉ番目のタイミング畳み込みニューラルネットワーク－条件付きランダムフィールドモデルを取得し、ｉを順に１～Ｋの自然数とし、合計でＫ個の訓練後のタイミング畳み込みニューラルネットワーク－条件付きランダムフィールドモデルを得るステップと、ターゲットコーパスデータを文字レベルのデータに変換し、第１データを取得し、前記第１データをシーケンスデータに変換し、第２データを取得し、前記第２データを前記Ｋ個の訓練後のタイミング畳み込みニューラルネットワーク－条件付きランダムフィールドモデルのうちの少なくとも１つの訓練後のタイミング畳み込みニューラルネットワーク－条件付きランダムフィールドモデルに入力し、前記ターゲットコーパスデータの単語分割結果を得るステップと、を含む。

一局面では、本出願の実施例は、ディープラーニングに基づく中国語単語分割装置を提供し、前記装置は、訓練コーパスデータを文字レベルのデータに変換するための第１変換ユニットと、前記文字レベルのデータをシーケンスデータに変換するための第２変換ユニットと、予め設定された符号に基づいて前記シーケンスデータを分割し、複数のサブシーケンスデータを取得し、サブシーケンスデータの長さに基づいて前記複数のサブシーケンスデータをグループ化し、Ｋ個のデータセットを得るための第１分割ユニットであって、前記Ｋ個のデータセットのうちの各々のデータセットに含まれるサブシーケンスデータの長さが同じであり、Ｋは、１より大きい自然数である第１分割ユニットと、ｉ番目のデータセットから複数のサブシーケンスデータを抽出し、且つ抽出された前記複数のサブシーケンスデータをｉ番目のタイミング畳み込みニューラルネットワーク－条件付きランダムフィールドモデルに入力し、前記ｉ番目のタイミング畳み込みニューラルネットワーク－条件付きランダムフィールドモデルを訓練し、訓練後のｉ番目のタイミング畳み込みニューラルネットワーク－条件付きランダムフィールドモデルを取得し、ｉを順に１～Ｋの自然数とし、合計でＫ個の訓練後のタイミング畳み込みニューラルネットワーク－条件付きランダムフィールドモデルを得るための第１決定ユニットと、ターゲットコーパスデータを文字レベルのデータに変換し、第１データを取得し、前記第１データをシーケンスデータに変換し、第２データを取得し、前記第２データを前記Ｋ個の訓練後のタイミング畳み込みニューラルネットワーク－条件付きランダムフィールドモデルのうちの少なくとも１つの訓練後のタイミング畳み込みニューラルネットワーク－条件付きランダムフィールドモデルに入力し、前記ターゲットコーパスデータの単語分割結果を得るための第２決定ユニットと、を含む。

一局面では、本出願の実施例は、記憶されるプログラムを含む記憶媒体を提供し、前記プログラムの運転中に、前記記憶媒体が位置する機器を制御して、上記のディープラーニングに基づく中国語単語分割方法を行わせる。

一局面では、本出願の実施例は、プログラム命令を含む情報を記憶するためのメモリと、プログラム命令の実行を制御するためのプロセッサと、を含むコンピュータ機器を提供し、前記プログラム命令がプロセッサによりロードされて実行されるときに、上記のディープラーニングに基づく中国語単語分割方法のステップを実施する。

本出願の実施例では、ターゲットコーパスデータを文字レベルのデータに変換し、文字レベルのデータをシーケンスデータに変換し、シーケンスデータを訓練後のタイミング畳み込みニューラルネットワーク－条件付きランダムフィールドモデルに入力し、ターゲットコーパスデータの単語分割結果を取得し、タイミング畳み込みニューラルネットワークがネットワーク層の数を増加させることで、指数的に増加する速度で受信エリアを広げることができ、それにより、シーケンスの長さが長いシーケンスデータ又は他の特性が複雑なデータを処理でき、エンコード結果の精度を上げることにより、中国語の単語分割の精度を向上させた。

本出願の実施例の技術的解決手段をより明確に説明するために、以下では実施形態において必要とされる図面を簡単に説明するが、以下に説明される図面は本出願の一部の実施形態にすぎず、当業者にとっては、創造的な労働をせずに、これらの図面に基づいて他の図面も得ることができる。
本出願の実施例による選択可能なディープラーニングに基づく中国語単語分割方法のフローチャートである。本出願の実施例による選択可能なディープラーニングに基づく中国語単語分割装置の模式図である。本出願の実施例に係る選択可能なコンピュータ機器の模式図である。

本出願の技術的解決手段をよりよく理解するために、以下、図面を参照しながら本出願の実施形態を詳細に説明する。

説明される実施例は、全ての実施例ではなく、本願の一部の実施例に過ぎないことが明らかである。本出願の実施例に基づいて、当業者は、創造的な労働をせずに取得する他のすべての実施形態も、本出願の保護範囲内に属される。

本出願の実施例において使用される用語は、特定の実施例を説明するためのものに過ぎず、本出願を限定するためのものではない。本出願の実施例及び添付の特許請求の範囲において使用される単数形の「１つ」、「前記」及び「該」は、文脈が明確に他の意味を表していない限り、多数の形式を含むことが意図されている。

本明細書で用いられる用語の「及び／又は」は、関連オブジェクトを説明する関連関係に過ぎず、３つの関係が存在してもよいことを表し、例えば、「Ａ及び／又はＢ」は、「Ａが独立して存在する」、「Ａ及びＢが同時に存在する」、「Ｂが独立して存在する」の３つの状況を表してもよいと理解すべきである。また、本明細書における符号「／」は、一般的に前後の関連オブジェクトが「又は」の関係であることを表す。

図１は、本出願の実施例による選択可能なディープラーニングに基づく中国語単語分割方法のフローチャートであり、図１に示すように、当該方法は、ステップＳ１０２、ステップＳ１０４、ステップＳ１０６、ステップＳ１０８、及びステップＳ１１０を含む。

ステップＳ１０２において、訓練コーパスデータを文字レベルのデータに変換する。

ステップＳ１０４において、文字レベルのデータをシーケンスデータに変換する。

ステップＳ１０６において、予め設定された符号に基づいてシーケンスデータを分割し、複数のサブシーケンスデータを取得し、サブシーケンスデータの長さに基づいて複数のサブシーケンスデータをグループ化し、Ｋ個のデータセットを取得し、Ｋ個のデータセットのうちの各々のデータセットに含まれるサブシーケンスデータの長さが同じである。Ｋは、１より大きい自然数である。予め設定された符号とは、文分割用の句読符号であり、例えば、ピリオド、疑問符、感嘆符、句読点、読点、セミコロン、コロンなどである。

ステップＳ１０８において、ｉ番目のデータセットから複数のサブシーケンスデータを抽出し、且つ抽出された複数のサブシーケンスデータをｉ番目のタイミング畳み込みニューラルネットワーク－条件付きランダムフィールドモデルに入力し、ｉ番目のタイミング畳み込みニューラルネットワーク－条件付きランダムフィールドモデルを訓練し、訓練後のｉ番目のタイミング畳み込みニューラルネットワーク－条件付きランダムフィールドモデルを取得し、ｉを順に１～Ｋの自然数とし、合計でＫ個の訓練後のタイミング畳み込みニューラルネットワーク－条件付きランダムフィールドモデルを得る。

ステップＳ１１０において、ターゲットコーパスデータを文字レベルのデータに変換し、第１データを取得し、第１データをシーケンスデータに変換し、第２データを取得し、第２データをＫ個の訓練後のタイミング畳み込みニューラルネットワーク－条件付きランダムフィールドモデルのうちの少なくとも１つの訓練後のタイミング畳み込みニューラルネットワーク－条件付きランダムフィールドモデルに入力し、ターゲットコーパスデータの単語分割結果を得る。

コーパスデータは、電子コンピュータをキャリヤーとして言語知識を運ぶ基礎リソースであり、言語の実際の使用に実際に出現した言語資料である。

タイミング畳み込みニューラルネットワーク－条件付きランダムフィールドモデル（ＴＣＮ－ＣＲＦ）は、タイミング畳み込みニューラルネットワーク（ＴＣＮ）と条件付きランダムフィールド（ＣＲＦ）との結合モデルである。タイミング畳み込みニューラルネットワークは、ディープラーニングの時間畳み込みネットワークであり、条件付きランダムフィールドは、典型的な判別式モデルである。条件付きランダムフィールドは、単語分割を文字の単語における位置の分類問題と見なし、通常、以下のように、文字の単語における位置の情報を定義する。単語頭は、一般的にＢで表され、単語中は、一般的にＭで表され、単語尾は、一般的にＥで表され、シングルワードは、一般的にＳで表され、条件付きランダムフィールドの単語分割の過程は、単語における位置をマーキングした後、ＢとＥとの間の文字、及びＳシングルワードで単語分割の結果を構成することである。例えば、単語分割すべき文は、「我愛北京天安門」であり、マーキング後、我／Ｓ愛／Ｓ北／Ｂ京／Ｅ天／Ｂ安／Ｍ門／Ｅになり、単語分割結果が「我／愛／北京／天安門」である。

本出願の実施例では、ターゲットコーパスデータを文字レベルのデータに変換し、文字レベルのデータをシーケンスデータに変換し、シーケンスデータを訓練後のタイミング畳み込みニューラルネットワーク－条件付きランダムフィールドモデルに入力し、ターゲットコーパスデータの単語分割結果を取得する。タイミング畳み込みニューラルネットワークは、ネットワーク層の数を増加させることで、指数的に増加する速度で受信エリアを広げることができ、それにより、シーケンスの長さが長いシーケンスデータ又は特性が他の複雑なデータを処理でき、エンコード結果の精度を上げることにより、中国語の単語分割の精度を向上させる。

また、タイミング畳み込みニューラルネットワークにおける同じ特徴マッピング面のニューロンの重みが同じであり、並行学習でき、処理速度が速く、従って、タイミング畳み込みニューラルネットワーク－条件付きランダムフィールドモデルは、分散型システムにおいて実現することができる。

任意選択的には、文字レベルのデータをシーケンスデータに変換するステップは、ワンホットエンコーディング又は単語のベクトルエンコーディングのいずれかである予め設定されたエンコーディング方式により文字レベルのデータをシーケンスデータに変換するステップを含む。

ワンホットエンコーディングとは、Ｏｎｅ－Ｈｏｔエンコーディングであり、ワンビット有効エンコーディングとも呼ばれる。その方法は、Ｎビットのステータスレジスタを用いてＮ個のステータをエンコーディングすることである。各ステータは、いずれも、独立したレジスタビットを有し、且つ任意の時点に、１ビットだけが有効である。例えば、１組のデータの特徴が色であり、黄色、赤色、緑色を含むと、ワンホットエンコーディングを用いた後、黄色が［１００」になり、赤色が［０１０」になり、緑色が［００１」になり、このように、ワンホットエンコーディング済みのシーケンスデータは、ベクトルに対応し、ニューラルネットワークモデルに用いることができる。

単語のベクトルエンコーディングは、ｗｏｒｄ２ｖｅｃであってもよく、ｗｏｒｄ２ｖｅｃは、単語を実数値ベクトルとして表現する高効率アルゴリズムモデルであり、訓練により、テキストコンテンツに対する処理をＫ次元のベクトル空間におけるベクトル計算に簡略化することができる。ｗｏｒｄ２ｖｅｃにより出力された単語ベクトルは、多くのＮＬＰ（神経言語プログラミング）に関連する作業、例えばクラスタリング、類義語検索、品性分析などに用いられることができる。例えば、ｗｏｒｄ２ｖｅｃは、文字レベルのデータを特徴とし、特徴をＫ次元のベクトル空間にマッピングし、特徴で表現されるシーケンスデータを得る。

任意選択的には、抽出された複数のサブシーケンスデータをｉ番目のタイミング畳み込みニューラルネットワーク－条件付きランダムフィールドモデルに入力し、ｉ番目のタイミング畳み込みニューラルネットワーク－条件付きランダムフィールドモデルを訓練し、訓練後のｉ番目のタイミング畳み込みニューラルネットワーク－条件付きランダムフィールドモデルを得るステップは、ｉ番目のタイミング畳み込みニューラルネットワーク－条件付きランダムフィールドモデルにおけるタイミング畳み込みニューラルネットワークであるｉ番目のタイミング畳み込みニューラルネットワークに抽出された複数のサブシーケンスデータを入力してフォワード伝播を行い、第１出力データを得るステップＳ１と、第１出力データと入力された複数のサブシーケンスデータに基づいて損失関数の値を計算するステップＳ２と、損失関数の値がデフォルト値より大きいと、複数のサブシーケンスデータをｉ番目のタイミング畳み込みニューラルネットワークに入力してバックワード伝播を行い、ｉ番目のタイミング畳み込みニューラルネットワークのネットワークパラメータを最適化させるステップＳ３と、損失関数の値がデフォルト値以下になるまで、ステップＳ１～Ｓ３を繰り返すステップＳ４と、損失関数の値がデフォルト値以下になると、訓練完了を決定し、訓練後のｉ番目のタイミング畳み込みニューラルネットワークを得るステップＳ５と、ｉ番目のタイミング畳み込みニューラルネットワーク－条件付きランダムフィールドモデルにおける条件付きランダムフィールドであるｉ番目の条件付きランダムフィールドに、訓練後のｉ番目のタイミング畳み込みニューラルネットワークから出力されたデータを入力し、且つｉ番目の条件付きランダムフィールドを訓練し、訓練後のｉ番目のタイミング畳み込みニューラルネットワーク－条件付きランダムフィールドモデルを得るステップＳ６と、を含む。

損失関数の値に基づいてｉ番目のタイミング畳み込みニューラルネットワークを訓練するステップは、具体的には、ｉ番目のタイミング畳み込みニューラルネットワークのネットワークパラメータを初期化し、ランダム勾配降下法を用いてｉ番目のタイミング畳み込みニューラルネットワークを反復訓練し、１回反復するたびに１回損失関数の値を計算し、損失関数の値が最小になるまで複数回反復し、訓練完了後のｉ番目のタイミング畳み込みニューラルネットワーク及び対応する収束されたネットワークパラメータを得るステップを含む。

具体的に、損失関数を計算する式は、以下の式（次に挿入された数１）であり得る。

Ｌｏｓｓは、損失関数の値を表し、Ｎは、ｉ番目のタイミング畳み込みニューラルネットワークに入力されたサブシーケンスデータの数を表し、ｙ^（ｉ）は、ｉ番目のタイミング畳み込みニューラルネットワークに入力されたｉ番目のサブシーケンスデータを表し、次に挿入された数２は、ｉ番目のサブシーケンスデータがｉ番目のタイミング畳み込みニューラルネットワークに入力された後に出力されたデータを表す。

任意選択的には、ｉ番目の条件付きランダムフィールドを訓練するステップは、訓練後のｉ番目のタイミング畳み込みニューラルネットワークから出力されたデータに基づいて、ｉ番目の条件付きランダムフィールドの出力データの条件確率を計算するステップと、最尤推定方法を用いて訓練してｉ番目の条件付きランダムフィールドの出力データの条件確率の最大値を得るステップと、を含む。

条件付きランダムフィールドは、ランダム変数Ｘが与えられた条件において、ランダム変数Ｙのマルコフランダムフィールドであり、マルコフランダムフィールドのあるランダム変数は、その隣接するランダム変数だけに関係し、それらの隣接していないランダム変数とは無関係である。

条件確率モデルＰ（Ｙ｜Ｘ）では、Ｙは、出力変数であり、マーキングシーケンスを表し、状態シーケンスとも呼ばれ、Ｘは、入力変数であり、マーキングすべき観測シーケンスを表す。訓練際に訓練データを用い、最尤推定により条件確率モデルを取得し、次に該モデルで予測し、与えられた入力配列Ｘの場合、条件確率が最大のときの出力シーケンスは、Ｙである。一般的には、リニアチェーンの条件付きランダムフィールドを用い、入力されたシーケンスは、Ｘ＝（Ｘ１，Ｘ２，…，Ｘｎ）であり、出力されたシーケンスＹ＝（Ｙ１，Ｙ２，…，Ｙｎ）は、リニアチェーンで表れるランダム変数シーケンスであり、ランダム変数シーケンスＸが与えられた条件において、ランダム変数シーケンスＹの条件確率分布Ｐ（Ｙ｜Ｘ）は、条件付きランダムフィールドを構成する。

最尤推定とは、複数回の試験を行い、その結果を観察し、試験結果を用い、サンプルの出現確率を最大にできるあるパラメータ値を得るというものである。最尤推定は、観測データを与えてモデルパラメータを推定する方法であり、すなわち、「モデルが既知、パラメータが未知である」。既知のサンプルデータは、Ｘ＝（Ｘ１，Ｘ２，…，Ｘｎ）であり、ｎは、サンプルデータの数であり、パラメータｔを推定し、Ｘに対するｔの尤度関数は、次の数３で示される。

ただし、ｉは、値が１～ｎの自然数であり、ｔ’は、パラメータ空間における尤度関数ｆ（ｔ）を最大にできるｔ値であると、ｔ’は、「最可能な」パラメータであり、ｔ’は、ｔの最尤推定量である。

任意選択的には、第２データをＫ個の訓練後のタイミング畳み込みニューラルネットワーク－条件付きランダムフィールドモデルのうちの少なくとも１つの訓練後のタイミング畳み込みニューラルネットワーク－条件付きランダムフィールドモデルに入力し、ターゲットコーパスデータの単語分割結果を得るステップは、予め設定された符号に基づいて第２データを分割し、複数のシーケンスデータを得るステップと、シーケンスデータの長さに基づいて複数のシーケンスデータをグループ化し、Ｌ個のデータセットを得るステップであって、Ｌ個のデータセットのうちの各々のデータセットに含まれるすべてのシーケンスデータの長さが同じであり、Ｌは、自然数であり、１≦Ｌ≦Ｋステップと、訓練過程に使用されたサブシーケンスデータの長さに基づいてＫ個の訓練後のタイミング畳み込みニューラルネットワーク－条件付きランダムフィールドモデルから、Ｌ個の訓練後のタイミング畳み込みニューラルネットワーク－条件付きランダムフィールドモデルをスクリーニングし、Ｌ１番目～ＬＬ番目の訓練後のタイミング畳み込みニューラルネットワーク－条件付きランダムフィールドモデルを取得し取得し、ｊ番目のデータセットに含まれるすべてのシーケンスデータをＬｊ番目の訓練後のタイミング畳み込みニューラルネットワーク－条件付きランダムフィールドモデルに入力し、複数の単語分割結果を得るステップと、複数の単語分割結果をスティッチングし、ターゲットコーパスデータの単語分割結果を得るステップと、を含む。ここで、Ｌｊ番目の訓練後のタイミング畳み込みニューラルネットワーク－条件付きランダムフィールドモデルの訓練過程に使用されたサブシーケンスデータの長さは、ｊ番目のデータセットに含まれるシーケンスデータの長さと同じであり、ｊは順に１～Ｌの自然数であり、Ｌｊは１～Ｋの自然数である。

例えば、Ｋの値を５とすると、５つの訓練後のタイミング畳み込みニューラルネットワーク－条件付きランダムフィールドモデルが訓練際に使用するサブシーケンスの長さがそれぞれ１０、２０、３０、４０、５０であり、第２データを分割した後、長さがそれぞれ２０及び５０の２つのシーケンスデータを取得する。取得し、次に、訓練過程に使用されたサブシーケンスデータの長さ２０及び５０に基づいて、５つの訓練後のタイミング畳み込みニューラルネットワーク－条件付きランダムフィールドモデルから、２つの訓練後のタイミング畳み込みニューラルネットワーク－条件付きランダムフィールドモデルをスクリーニングし、スクリーニングされた１番目の訓練後のタイミング畳み込みニューラルネットワーク－条件付きランダムフィールドモデルの訓練過程に使用されたサブシーケンスデータの長さが２０であり、スクリーニングされた２番目の訓練後のタイミング畳み込みニューラルネットワーク－条件付きランダムフィールドモデルの訓練過程に使用されたサブシーケンスデータの長さが５０であり、シーケンスデータの長さが２０のデータを１番目の訓練後のタイミング畳み込みニューラルネットワーク－条件付きランダムフィールドモデルに入力し、複数の単語分割結果を得る。シーケンスデータの長さが５０のデータを２番目の訓練後のタイミング畳み込みニューラルネットワーク－条件付きランダムフィールドモデルに入力し、複数の単語分割結果を得る。１番目の訓練後のタイミング畳み込みニューラルネットワーク－条件付きランダムフィールドモデルから出力された複数の単語分割結果と、２番目の訓練後のタイミング畳み込みニューラルネットワーク－条件付きランダムフィールドモデルから出力された複数の単語分割結果とをスティッチングし、ターゲットコーパスデータの単語分割結果を得る。

図２は、本出願の実施例による選択可能なディープラーニングに基づく中国語単語分割装置の模式図である。該装置は、上記ディープラーニングに基づく中国語単語分割方法を実行するためのものであり、図２に示すように、該装置は、第１変換ユニット１０、第２変換ユニット２０、第１分割ユニット３０、第１決定ユニット４０、及び第２決定ユニット５０を含む。

第１変換ユニット１０は、訓練コーパスデータを文字レベルのデータに変換するために用いられる。

第２変換ユニット２０は、文字レベルのデータをシーケンスデータに変換するために用いられる。

第１分割ユニット３０は、予め設定された符号に基づいてシーケンスデータを分割し、複数のサブシーケンスデータを取得し、サブシーケンスデータの長さに基づいて複数のサブシーケンスデータをグループ化し、Ｋ個のデータセットを取得し、Ｋ個のデータセットのうちの各々のデータセットに含まれるサブシーケンスデータの長さが同じである。Ｋは、１より大きい自然数である。予め設定された符号とは、文分割用の句読符号であり、例えば、ピリオド、疑問符、感嘆符、句読点、読点、セミコロン、コロンなどである。

第１決定ユニット４０は、ｉ番目のデータセットから複数のサブシーケンスデータを抽出し、且つ抽出された複数のサブシーケンスデータをｉ番目のタイミング畳み込みニューラルネットワーク－条件付きランダムフィールドモデルに入力し、ｉ番目のタイミング畳み込みニューラルネットワーク－条件付きランダムフィールドモデルを訓練し、訓練後のｉ番目のタイミング畳み込みニューラルネットワーク－条件付きランダムフィールドモデルを取得し、ｉを順に１～Ｋの自然数とし、合計でＫ個の訓練後のタイミング畳み込みニューラルネットワーク－条件付きランダムフィールドモデルを得るために用いられる。

第２決定ユニット５０は、ターゲットコーパスデータを文字レベルのデータに変換し、第１データを取得し取得し、第１データをシーケンスデータに変換し、第２データを取得し、第２データをＫ個の訓練後のタイミング畳み込みニューラルネットワーク－条件付きランダムフィールドモデルのうちの少なくとも１つの訓練後のタイミング畳み込みニューラルネットワーク－条件付きランダムフィールドモデルに入力し、ターゲットコーパスデータの単語分割結果を得るために用いられる。

タイミング畳み込みニューラルネットワーク－条件付きランダムフィールドモデル（ＴＣＮ－ＣＲＦ）は、タイミング畳み込みニューラルネットワーク（ＴＣＮ）と条件付きランダムフィールド（ＣＲＦ）との結合モデルである。タイミング畳み込みニューラルネットワークは、ディープラーニングの時間畳み込みネットワークであり、条件付きランダムフィールドは、典型的な判別式モデルであり、条件付きランダムフィールドは、単語分割を文字の単語における位置の分類問題と見なし、通常、以下のように、文字の単語における位置の情報を定義する。単語頭は、一般的にＢで表され、単語中は、一般的にＭで表され、単語尾は、一般的にＥで表され、シングルワードは、一般的にＳで表され、条件付きランダムフィールドの単語分割の過程は、単語における位置をマーキングした後、ＢとＥとの間の文字、及びＳシングルワードで単語分割の結果を構成することである。例えば、単語分割すべき文は、「我愛北京天安門」であり、マーキング後、我／Ｓ愛／Ｓ北／Ｂ京／Ｅ天／Ｂ安／Ｍ門／Ｅになり、単語分割結果が「我／愛／北京／天安門」である。

本出願の実施例では、ターゲットコーパスデータを文字レベルのデータに変換し、文字レベルのデータをシーケンスデータに変換し、シーケンスデータを訓練後のタイミング畳み込みニューラルネットワーク－条件付きランダムフィールドモデルに入力し、ターゲットコーパスデータの単語分割結果を取得する。タイミング畳み込みニューラルネットワークは、ネットワーク層の数を増加させることで、指数的に増加する速度で受信エリアを広げることができ、それにより、シーケンスの長さが長いシーケンスデータ又は特性が他の複雑なデータを処理でき、エンコード結果の精度を向上させ、それにより、中国語の単語分割の精度を向上させる。

任意選択的には、第２変換ユニット２０は、サブ変換ユニットを含む。サブ変換ユニットは、ワンホットエンコーディング又は単語のベクトルエンコーディングのいずれかである予め設定されたエンコーディング方式により文字レベルのデータをシーケンスデータに変換するために用いられる。

任意選択的には、第１決定ユニット４０は、ｉ番目のタイミング畳み込みニューラルネットワーク－条件付きランダムフィールドモデルにおけるタイミング畳み込みニューラルネットワークであるｉ番目のタイミング畳み込みニューラルネットワークに、抽出された複数のサブシーケンスデータを入力してフォワードワード伝播を行い、第１出力データを得るステップＳ１と、第１出力データと入力された複数のサブシーケンスデータに基づいて損失関数の値を計算するステップＳ２と、損失関数の値がデフォルト値より大きいと、複数のサブシーケンスデータをｉ番目のタイミング畳み込みニューラルネットワークに入力してバックワード伝播を行い、ｉ番目のタイミング畳み込みニューラルネットワークのネットワークパラメータを最適化させるステップＳ３と、損失関数の値がデフォルト値以下になるまで、ステップＳ１～Ｓ３を繰り返すステップＳ４と、損失関数の値がデフォルト値以下になると、訓練完了を決定し、訓練後のｉ番目のタイミング畳み込みニューラルネットワークを得るステップＳ５と、ｉ番目のタイミング畳み込みニューラルネットワーク－条件付きランダムフィールドモデルにおける条件付きランダムフィールドであるｉ番目の条件付きランダムフィールドに、訓練後のｉ番目のタイミング畳み込みニューラルネットワークから出力されたデータを入力し、ｉ番目の条件付きランダムフィールドを訓練し、訓練後のｉ番目のタイミング畳み込みニューラルネットワーク－条件付きランダムフィールドモデルを得るステップＳ１と、を実行するためのものである。

任意選択的には、第１決定ユニットは、第１サブ計算ユニットと、第１サブ決定ユニットと、を含む。第１サブ計算ユニットは、訓練後のｉ番目のタイミング畳み込みニューラルネットワークから出力されたデータに基づいて、ｉ番目の条件付きランダムフィールドの出力データの条件確率を計算するために用いられる。第１サブ決定ユニットは、最尤推定方法を用いて訓練してｉ番目の条件付きランダムフィールドの出力データの条件確率の最大値を得るために用いられる。

任意選択的には、第２決定ユニット５０は、サブ分割ユニットと、サブグループ化ユニットと、第２サブ決定ユニットと、サブスティッチングユニットと、を含む。サブ分割ユニットは、予め設定された符号に基づいて第２データを分割し、複数のシーケンスデータを得るために用いられる。サブグループ化ユニットは、シーケンスデータの長さに基づいて複数のシーケンスデータをグループ化し、Ｌ個のデータセットを得るために用いられ、Ｌ個のデータセットのうちの各々のデータセットに含まれるすべてのシーケンスデータの長さが同じであり、Ｌは、自然数であり、１≦Ｌ≦Ｋ。第２サブ決定ユニットは、訓練過程に使用されたサブシーケンスデータの長さに基づいてＫ個の訓練後のタイミング畳み込みニューラルネットワーク－条件付きランダムフィールドモデルから、Ｌ個の訓練後のタイミング畳み込みニューラルネットワーク－条件付きランダムフィールドモデルをスクリーニングし、Ｌ１番目～ＬＬ番目の訓練後のタイミング畳み込みニューラルネットワーク－条件付きランダムフィールドモデルを取得し、ｊ番目のデータセットに含まれるすべてのシーケンスデータをＬｊ番目の訓練後のタイミング畳み込みニューラルネットワーク－条件付きランダムフィールドモデルに入力し、複数の単語分割結果を得るために用いられる。ここで、Ｌｊ番目の訓練後のタイミング畳み込みニューラルネットワーク－条件付きランダムフィールドモデルの訓練過程に使用されたサブシーケンスデータの長さはｊ番目のデータセットに含まれるシーケンスデータの長さと同じであり、ｊは順に１～Ｌの自然数であり、Ｌｊは１～Ｋの自然数である。サブスティッチングユニットは、複数の単語分割結果をスティッチングし、ターゲットコーパスデータの単語分割結果を得るために用いられる。

一局面では、本出願の実施例は、記憶されるプログラムを含む記憶媒体を提供し、プログラムの運転中に、記憶媒体が位置する機器を制御して、訓練コーパスデータを文字レベルのデータに変換するステップと、文字レベルのデータをシーケンスデータに変換するステップと、予め設定された符号に基づいてシーケンスデータを分割し、複数のサブシーケンスデータを取得し、サブシーケンスデータの長さに基づいて複数のサブシーケンスデータをグループ化し、Ｋ個のデータセットを得るステップであって、Ｋ個のデータセットのうちの各々のデータセットに含まれるサブシーケンスデータの長さが同じであり、Ｋは、１より大きい自然数であるステップと、ｉ番目のデータセットから複数のサブシーケンスデータを抽出し、抽出した複数のサブシーケンスデータをｉ番目のタイミング畳み込みニューラルネットワーク－条件付きランダムフィールドモデルに入力し、ｉ番目のタイミング畳み込みニューラルネットワーク－条件付きランダムフィールドモデルを訓練し、訓練後のｉ番目のタイミング畳み込みニューラルネットワーク－条件付きランダムフィールドモデルを取得し取得し、ｉを順に１～Ｋの自然数とし、合計でＫ個の訓練後のタイミング畳み込みニューラルネットワーク－条件付きランダムフィールドモデルを得るステップと、ターゲットコーパスデータを文字レベルのデータに変換し、第１データを取得し、第１データをシーケンスデータに変換し、第２データを取得し、第２データをＫ個の訓練後のタイミング畳み込みニューラルネットワーク－条件付きランダムフィールドモデルのうちの少なくとも１つの訓練後のタイミング畳み込みニューラルネットワーク－条件付きランダムフィールドモデルに入力し、ターゲットコーパスデータの単語分割結果を得るステップと、を行わせる。

任意選択的には、プログラムの運転中に、記憶媒体が位置する機器を制御して、ワンホットエンコーディング又は単語のベクトルエンコーディングのいずれかである予め設定されたエンコーディング方式により文字レベルのデータをシーケンスデータに変換するステップを、さらに行わせる。

任意選択的には、プログラムの運転中に、記憶媒体が位置する機器を制御して、ｉ番目のタイミング畳み込みニューラルネットワーク－条件付きランダムフィールドモデルにおけるタイミング畳み込みニューラルネットワークであるｉ番目のタイミング畳み込みニューラルネットワークに、抽出された複数のサブシーケンスデータを入力してフォワードワード伝播を行い、第１出力データを得るステップＳ１と、第１出力データと入力された複数のサブシーケンスデータに基づいて損失関数の値を計算するステップＳ２と、損失関数の値がデフォルト値より大きいと、複数のサブシーケンスデータをｉ番目のタイミング畳み込みニューラルネットワークに入力してバックワード伝播を行い、且つｉ番目のタイミング畳み込みニューラルネットワークのネットワークパラメータを最適化するステップＳ３と、損失関数の値がデフォルト値以下になるまで、ステップＳ１～Ｓ３を繰り返すステップＳ４と、損失関数の値がデフォルト値以下になると、訓練完了を決定し、訓練後のｉ番目のタイミング畳み込みニューラルネットワークを得るステップＳ５と、ｉ番目のタイミング畳み込みニューラルネットワーク－条件付きランダムフィールドモデルにおける条件付きランダムフィールドであるｉ番目の条件付きランダムフィールドに、訓練後のｉ番目のタイミング畳み込みニューラルネットワークから出力されたデータを入力し、且つｉ番目の条件付きランダムフィールドを訓練し、訓練後のｉ番目のタイミング畳み込みニューラルネットワーク－条件付きランダムフィールドモデルを得るステップＳ６と、をさらに行わせる。

任意選択的には、プログラムの運転中に、記憶媒体が位置する機器を制御して、訓練後のｉ番目のタイミング畳み込みニューラルネットワークから出力されたデータに基づいて、ｉ番目の条件付きランダムフィールドの出力データの条件確率を計算するステップと、最尤推定方法を用いて訓練してｉ番目の条件付きランダムフィールドの出力データの条件確率の最大値を得るステップと、をさらに行わせる。

任意選択的には、プログラムの運転中に、記憶媒体が位置する機器を制御して、予め設定された符号に基づいて第２データを分割し、複数のシーケンスデータを得るステップと、シーケンスデータの長さに基づいて複数のシーケンスデータをグループ化し、Ｌ個のデータセットを得るステップであって、Ｌ個のデータセットのうちの各々のデータセットに含まれるすべてのシーケンスデータの長さが同じであり、Ｌは、自然数であり、１≦Ｌ≦Ｋステップと、訓練過程に使用されたサブシーケンスデータの長さに基づいてＫ個の訓練後のタイミング畳み込みニューラルネットワーク－条件付きランダムフィールドモデルから、Ｌ個の訓練後のタイミング畳み込みニューラルネットワーク－条件付きランダムフィールドモデルをスクリーニングし、Ｌ１番目～ＬＬ番目の訓練後のタイミング畳み込みニューラルネットワーク－条件付きランダムフィールドモデルを取得し、ｊ番目のデータセットに含まれるすべてのシーケンスデータをＬｊ番目の訓練後のタイミング畳み込みニューラルネットワーク－条件付きランダムフィールドモデルに入力し、複数の単語分割結果を得るステップと、複数の単語分割結果をスティッチングし、ターゲットコーパスデータの単語分割結果を得るステップと、をさらに行わせる。ここで、Ｌｊ番目の訓練後のタイミング畳み込みニューラルネットワーク－条件付きランダムフィールドモデルの訓練過程に使用されたサブシーケンスデータの長さは、ｊ番目のデータセットに含まれるシーケンスデータの長さと同じであり、ｊは順に１～Ｌの自然数であり、Ｌｊは１～Ｋの自然数である。

一局面では、本出願の実施例は、プログラム命令を含む情報を記憶するためのメモリと、プログラム命令の実行を制御するためのプロセッサと、を含むコンピュータ機器を提供し、プログラム命令がプロセッサによりロードされて実行されると、訓練コーパスデータを文字レベルのデータに変換するステップと、文字レベルのデータをシーケンスデータに変換するステップと、予め設定された符号に基づいてシーケンスデータを分割し、複数のサブシーケンスデータを取得し、サブシーケンスデータの長さに基づいて複数のサブシーケンスデータをグループ化し、Ｋ個のデータセットを得るステップであって、Ｋ個のデータセットのうちの各々のデータセットに含まれるサブシーケンスデータの長さが同じであり、Ｋは、１より大きい自然数であるステップと、ｉ番目のデータセットから複数のサブシーケンスデータを抽出し、抽出した複数のサブシーケンスデータをｉ番目のタイミング畳み込みニューラルネットワーク－条件付きランダムフィールドモデルに入力し、ｉ番目のタイミング畳み込みニューラルネットワーク－条件付きランダムフィールドモデルを訓練し、訓練後のｉ番目のタイミング畳み込みニューラルネットワーク－条件付きランダムフィールドモデルを得るステップであって、ｉを順に１～Ｋの自然数とし、合計でＫ個の訓練後のタイミング畳み込みニューラルネットワーク－条件付きランダムフィールドモデルを得るステップと、ターゲットコーパスデータを文字レベルのデータに変換し、第１データを取得し、第１データをシーケンスデータに変換し、第２データを取得し、第２データをＫ個の訓練後のタイミング畳み込みニューラルネットワーク－条件付きランダムフィールドモデルのうちの少なくとも１つの訓練後のタイミング畳み込みニューラルネットワーク－条件付きランダムフィールドモデルに入力し、ターゲットコーパスデータの単語分割結果を得るステップと、を実施する。

任意選択的には、プログラム命令がプロセッサによりロードされて実行されるときに、ワンホットエンコーディング又は単語のベクトルエンコーディングのいずれかである予め設定されたエンコーディング方式により文字レベルのデータをシーケンスデータに変換するステップを、さらに実施する。

任意選択的には、プログラム命令がプロセッサによりロードされて実行されると、ｉ番目のタイミング畳み込みニューラルネットワーク－条件付きランダムフィールドモデルにおけるタイミング畳み込みニューラルネットワークであるｉ番目のタイミング畳み込みニューラルネットワークに、抽出された複数のサブシーケンスデータを入力してフォワードワード伝播を行い、第１出力データを得るステップＳ１と、第１出力データと入力された複数のサブシーケンスデータに基づいて損失関数の値を計算するステップＳ２と、損失関数の値がデフォルト値より大きいと、複数のサブシーケンスデータをｉ番目のタイミング畳み込みニューラルネットワークに入力してバックワード伝播を行い、且つｉ番目のタイミング畳み込みニューラルネットワークのネットワークパラメータを最適化するステップＳ３と、損失関数の値がデフォルト値以下になるまで、ステップＳ１～Ｓ３を繰り返すステップＳ４と、損失関数の値がデフォルト値以下になると、訓練完了を決定し、訓練後のｉ番目のタイミング畳み込みニューラルネットワークを得るステップＳ５と、ｉ番目のタイミング畳み込みニューラルネットワーク－条件付きランダムフィールドモデルにおける条件付きランダムフィールドであるｉ番目の条件付きランダムフィールドに、訓練後のｉ番目のタイミング畳み込みニューラルネットワークから出力されたデータを入力し、且つｉ番目の条件付きランダムフィールドを訓練し、訓練後のｉ番目のタイミング畳み込みニューラルネットワーク－条件付きランダムフィールドモデルを得るステップＳ６と、をさらに実施する。

任意選択的には、プログラム命令がプロセッサによりロードされて実行されるときに、訓練後のｉ番目のタイミング畳み込みニューラルネットワークから出力されたデータに基づいて、ｉ番目の条件付きランダムフィールドの出力データの条件確率を計算するステップと、最尤推定方法を用いて訓練してｉ番目の条件付きランダムフィールドの出力データの条件確率の最大値を得るステップと、をさらに実施する。

任意選択的には、プログラム命令がプロセッサによりロードされて実行されるときに、予め設定された符号に基づいて第２データを分割し、複数のシーケンスデータを得るステップと、シーケンスデータの長さに基づいて複数のシーケンスデータをグループ化し、Ｌ個のデータセットを得るステップであって、Ｌ個のデータセットのうちの各々のデータセットに含まれるすべてのシーケンスデータの長さが同じであり、Ｌは、自然数であり、１≦Ｌ≦Ｋステップと、訓練過程に使用されたサブシーケンスデータの長さに基づいてＫ個の訓練後のタイミング畳み込みニューラルネットワーク－条件付きランダムフィールドモデルから、Ｌ個の訓練後のタイミング畳み込みニューラルネットワーク－条件付きランダムフィールドモデルをスクリーニングし、Ｌ１番目～ＬＬ番目の訓練後のタイミング畳み込みニューラルネットワーク－条件付きランダムフィールドモデルを取得し、ｊ番目のデータセットに含まれるすべてのシーケンスデータをＬｊ番目の訓練後のタイミング畳み込みニューラルネットワーク－条件付きランダムフィールドモデルに入力し、複数の単語分割結果を得るステップと、複数の単語分割結果をスティッチングし、ターゲットコーパスデータの単語分割結果を得るステップを、さらに実施する。ここで、Ｌｊ番目の訓練後のタイミング畳み込みニューラルネットワーク－条件付きランダムフィールドモデルの訓練過程に使用されたサブシーケンスデータの長さは、ｊ番目のデータセットに含まれるシーケンスデータの長さと同じであり、ｊは順に１～Ｌの自然数であり、Ｌｊは１～Ｋの自然数である。

図３は、本出願の実施例に係るコンピュータ機器の模式図である。図３に示すように、該実施例のコンピュータ機器５０は、プロセッサ５１、メモリ５２と、メモリ５２に記憶され、プロセッサ５１において実行可能なコンピュータプログラム５３と、を含み、該コンピュータプログラム５３は、プロセッサ５１により実行されるときに、実施例におけるディープラーニングに基づく中国語単語分割方法を実施する。重複を避けるために、ここでは、その詳細を述べない。又は、該コンピュータプログラムがプロセッサ５１により実行されるときに、実施例のディープラーニングに基づく中国語単語分割装置における各モデル／ユニットの機能を実施する。重複を避けるために、ここでは、その詳細を述べない。

コンピュータ機器５０はデスクトップコンピュータ、ノート、パームトップパソコン及びクラウドサーバなどのコンピューティングデバイスであってもよい。コンピュータ機器は、プロセッサ５１、メモリ５２を含むがこれらに限定されるものではない。当業者であれば理解できるように、図３はコンピュータ機器５０の例に過ぎず、コンピュータ機器５０を限定するものではなく、図示より多く又は少ないユニットをさらに備えてもよいし、ある部材の組み合わせであってもよいし、異なる部材であってもよい。例えば、コンピュータ機器は、入出力デバイス、ネットワークアクセスデバイス、バスなどを含んでもよい。

いわゆるプロセッサ５１は、中央処理ユニット（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ、ＣＰＵ）であってもよいし、その他の汎用プロセッサ、デジタル信号プロセッサ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ、ＤＳＰ）、専用集積回路（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ、ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（Ｆｉｅｌｄ－ＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ、ＦＰＧＡ）又はその他のプログラマブル論理デバイス、ディスクリートゲート又はトランジスタ論理デバイス、ディスクリートハードウェアユニットなどであってもよい。汎用プロセッサは、マイクロプロセッサであってもよいし、いかなる通常のプロセッサなどであってもよい。

メモリ５２は、例えば、コンピュータ機器５０のハードディスク又はメモリなどのコンピュータ機器５０の内部記憶ユニットであってもよい。メモリ５２は、コンピュータ機器５０の外部記憶デバイス、例えば、コンピュータ機器５０に配置されたプラグインハードディスク、スマートメモリカード（ＳｍａｒｔＭｅｄｉａＣａｒｄ、ＳＭＣ）、セキュアデジタル（ＳｅｃｕｒｅＤｉｇｉｔａｌ、ＳＤ）カード、フラッシュカード（ＦｌａｓｈＣａｒｄ）などであってもよい。さらに、メモリ５２は、コンピュータ機器５０の内部記憶ユニットを含んでもよいし、外部記憶デバイスを含んでもよい。メモリ５２は、コンピュータプログラム及びコンピュータ機器に必要な他のプログラム及びデータを記憶するために用いられる。メモリ５２は、さらに、出力済み又は出力対象のデータを一時的に記憶するために用いられてもよい。

当業者であれば明らかに理解できるように、説明の便利及び簡潔のために、上記に説明されたシステム、装置及びユニットの具体的な動作過程は、前述の方法実施例における対応するプロセスを参照することができ、ここでは説明を省略する。

本出願に係る複数の実施例では、提供されるシステム、装置及び方法は他の形態で実施されてもよいことを理解されたい。例えば、上述の装置の実施例は単なる例示である。例えば、前記ユニットの分割は論理的な機能分割のみであり、実際の実施中には他の分割形態もあり得る。例えば、複数のユニットまたはコンポーネントを組み合わせたり、他のシステムに集積したり、あるいは一部の特徴は無視、省略される、または実行されなくてもよい。さらに、図示または説明した結合又は直接結合又は通信接続は、いくつかのインタフェース、装置またはユニットを介した間接カプリングまたは通信接続でもよく、電気接続、機械接続または他の形態での接続でもよい。

以上は本出願の好ましい実施例に過ぎず、本出願を限定するものではなく、本出願の精神及び原則内で、行われたいかなる修正、同等置換や改善などは、いずれも本出願の保護範囲内に含まれるべきである。

Claims

ディープラーニングに基づく中国語単語分割方法であって、
訓練コーパスデータを文字レベルのデータに変換するステップと、
前記文字レベルのデータをシーケンスデータに変換するステップと、
予め設定された符号に基づいて前記シーケンスデータを分割し、複数のサブシーケンスデータを取得し、サブシーケンスデータの長さに基づいて前記複数のサブシーケンスデータをグループ化し、Ｋ個のデータセットを得るステップであって、前記Ｋ個のデータセットのうちの各々のデータセットに含まれるサブシーケンスデータの長さが同じであり、Ｋは、１より大きい自然数であるステップと、
ｉ番目のデータセットから複数のサブシーケンスデータを抽出し、抽出した前記複数のサブシーケンスデータをｉ番目のタイミング畳み込みニューラルネットワーク－条件付きランダムフィールドモデルに入力し、前記ｉ番目のタイミング畳み込みニューラルネットワーク－条件付きランダムフィールドモデルを訓練し、訓練後のｉ番目のタイミング畳み込みニューラルネットワーク－条件付きランダムフィールドモデルを取得し、ｉを順に１～Ｋの自然数とし、合計でＫ個の訓練後のタイミング畳み込みニューラルネットワーク－条件付きランダムフィールドモデルを得るステップと、
ターゲットコーパスデータを文字レベルのデータに変換し、第１データを取得し、前記第１データをシーケンスデータに変換し、第２データを取得し、前記第２データを前記Ｋ個の訓練後のタイミング畳み込みニューラルネットワーク－条件付きランダムフィールドモデルのうちの少なくとも１つの訓練後のタイミング畳み込みニューラルネットワーク－条件付きランダムフィールドモデルに入力し、前記ターゲットコーパスデータの単語分割結果を得るステップと、
を含むことを特徴とするディープラーニングに基づく中国語単語分割方法。
前記文字レベルのデータをシーケンスデータに変換する前記ステップは、
ワンホットエンコーディング又は単語のベクトルエンコーディングのいずれかである予め設定されたエンコーディング方式により前記文字レベルのデータを前記シーケンスデータに変換する、ことを特徴とする請求項１に記載のディープラーニングに基づく中国語単語分割方法。
抽出された前記複数のサブシーケンスデータをｉ番目のタイミング畳み込みニューラルネットワーク－条件付きランダムフィールドモデルに入力し、前記ｉ番目のタイミング畳み込みニューラルネットワーク－条件付きランダムフィールドモデルを訓練し、訓練後のｉ番目のタイミング畳み込みニューラルネットワーク－条件付きランダムフィールドモデルを得る前記ステップは、
前記ｉ番目のタイミング畳み込みニューラルネットワーク－条件付きランダムフィールドモデルにおけるタイミング畳み込みニューラルネットワークであるｉ番目のタイミング畳み込みニューラルネットワークに、抽出された前記複数のサブシーケンスデータを入力してフォワード伝播を行い、第１出力データを得るステップＳ１と、
前記第１出力データ及び入力された前記複数のサブシーケンスデータに基づいて損失関数の値を計算するステップＳ２と、
前記損失関数の値がデフォルト値より大きいと、前記複数のサブシーケンスデータを前記ｉ番目のタイミング畳み込みニューラルネットワークに入力してバックワード伝播を行い、且つ前記ｉ番目のタイミング畳み込みニューラルネットワークのネットワークパラメータを最適化するステップＳ３と、
前記損失関数の値が前記デフォルト値以下になるまで、ステップＳ１～Ｓ３を繰り返すステップＳ４と、
前記損失関数の値が前記デフォルト値以下になると、訓練完了を決定し、訓練後のｉ番目のタイミング畳み込みニューラルネットワークを得るステップＳ５と、
前記ｉ番目のタイミング畳み込みニューラルネットワーク－条件付きランダムフィールドモデルにおける条件付きランダムフィールドであるｉ番目の条件付きランダムフィールドに、前記訓練後のｉ番目のタイミング畳み込みニューラルネットワークから出力されたデータを入力し、且つ前記ｉ番目の条件付きランダムフィールドを訓練し、前記訓練後のｉ番目のタイミング畳み込みニューラルネットワーク－条件付きランダムフィールドモデルを得るステップＳ６と、を含む、ことを特徴とする請求項１に記載のディープラーニングに基づく中国語単語分割方法。
前記ｉ番目の条件付きランダムフィールドを訓練する前記ステップは、
前記訓練後のｉ番目のタイミング畳み込みニューラルネットワークから出力されたデータに基づいて、前記ｉ番目の条件付きランダムフィールドの出力データの条件確率を計算するステップと、
最尤推定方法を用いて訓練して、前記ｉ番目の条件付きランダムフィールドの出力データの条件確率の最大値を得るステップと、を含む、ことを特徴とする請求項３に記載のディープラーニングに基づく中国語単語分割方法。
前記第２データを前記Ｋ個の訓練後のタイミング畳み込みニューラルネットワーク－条件付きランダムフィールドモデルのうちの少なくとも１つの訓練後のタイミング畳み込みニューラルネットワーク－条件付きランダムフィールドモデルに入力し、前記ターゲットコーパスデータの単語分割結果を得る前記ステップは、
予め設定された符号に基づいて前記第２データを分割し、複数のシーケンスデータを得るステップと、
シーケンスデータの長さに基づいて前記複数のシーケンスデータをグループ化し、Ｌ個のデータセットを得るステップであって、前記Ｌ個のデータセットのうちの各々のデータセットに含まれるすべてのシーケンスデータの長さが同じであり、Ｌは、自然数であり、１≦Ｌ≦Ｋステップと、
訓練過程に使用されたサブシーケンスデータの長さに基づいて前記Ｋ個の訓練後のタイミング畳み込みニューラルネットワーク－条件付きランダムフィールドモデルから、Ｌ個の訓練後のタイミング畳み込みニューラルネットワーク－条件付きランダムフィールドモデルをスクリーニングし、Ｌ１番目～ＬＬ番目の訓練後のタイミング畳み込みニューラルネットワーク－条件付きランダムフィールドモデルを取得し、ｊ番目のデータセットに含まれるすべてのシーケンスデータをＬｊ番目の訓練後のタイミング畳み込みニューラルネットワーク－条件付きランダムフィールドモデルに入力し、複数の単語分割結果を得るステップと、
前記複数の単語分割結果をスティッチングし、前記ターゲットコーパスデータの単語分割結果を得るステップと、を含み、
ここで、前記Ｌｊ番目の訓練後のタイミング畳み込みニューラルネットワーク－条件付きランダムフィールドモデルの訓練過程に使用されたサブシーケンスデータの長さは、前記ｊ番目のデータセットに含まれるシーケンスデータの長さと同じであり、ｊは順に１～Ｌの自然数であり、Ｌｊは１～Ｋの自然数であることを特徴とする請求項１～４のいずれかに記載のディープラーニングに基づく中国語単語分割方法。
ディープラーニングに基づく中国語単語分割装置であって、
訓練コーパスデータを文字レベルのデータに変換するための第１変換ユニットと、
前記文字レベルのデータをシーケンスデータに変換するための第２変換ユニットと、
予め設定された符号に基づいて前記シーケンスデータを分割し、複数のサブシーケンスデータを取得し、サブシーケンスデータの長さに基づいて前記複数のサブシーケンスデータをグループ化し、Ｋ個のデータセットを得る第１分割ユニットであって、前記Ｋ個のデータセットのうちの各々のデータセットに含まれるサブシーケンスデータの長さが同じであり、Ｋは、１より大きい自然数である第１分割ユニットと、
ｉ番目のデータセットから複数のサブシーケンスデータを抽出し、且つ抽出された前記複数のサブシーケンスデータをｉ番目のタイミング畳み込みニューラルネットワーク－条件付きランダムフィールドモデルに入力し、前記ｉ番目のタイミング畳み込みニューラルネットワーク－条件付きランダムフィールドモデルを訓練し、訓練後のｉ番目のタイミング畳み込みニューラルネットワーク－条件付きランダムフィールドモデルを取得し、ｉを順に１～Ｋの自然数とし、合計でＫ個の訓練後のタイミング畳み込みニューラルネットワーク－条件付きランダムフィールドモデルを得るための第１決定ユニットと、
前記ターゲットコーパスデータを文字レベルのデータに変換し、第１データを取得し、前記第１データをシーケンスデータに変換し、第２データを取得し、前記第２データを前記Ｋ個の訓練後のタイミング畳み込みニューラルネットワーク－条件付きランダムフィールドモデルのうちの少なくとも１つの訓練後のタイミング畳み込みニューラルネットワーク－条件付きランダムフィールドモデルに入力し、前記ターゲットコーパスデータの単語分割結果を得るための第２決定ユニットと、を含む、ことを特徴とするディープラーニングに基づく中国語単語分割装置。
前記第１決定ユニットは、
前記ｉ番目のタイミング畳み込みニューラルネットワーク－条件付きランダムフィールドモデルにおけるタイミング畳み込みニューラルネットワークであるｉ番目のタイミング畳み込みニューラルネットワークに、抽出された前記複数のサブシーケンスデータを入力してフォワード伝播を行い、第１出力データを得るステップＳ１と、
前記第１出力データ及び入力された前記複数のサブシーケンスデータに基づいて損失関数の値を計算するステップＳ２と、
前記損失関数の値がデフォルト値より大きいと、前記複数のサブシーケンスデータを前記ｉ番目のタイミング畳み込みニューラルネットワークに入力してバックワード伝播を行い、且つ前記ｉ番目のタイミング畳み込みニューラルネットワークのネットワークパラメータを最適化するステップＳ３と、
前記損失関数の値が前記デフォルト値以下になるまで、ステップＳ１～Ｓ３を繰り返すステップＳ４と、
前記損失関数の値が前記デフォルト値以下になると、訓練完了を決定し、訓練後のｉ番目のタイミング畳み込みニューラルネットワークを得るステップＳ５と、
前記ｉ番目のタイミング畳み込みニューラルネットワーク－条件付きランダムフィールドモデルにおける条件付きランダムフィールドであるｉ番目の条件付きランダムフィールドに、前記訓練後のｉ番目のタイミング畳み込みニューラルネットワークから出力されたデータを入力し、且つ前記ｉ番目の条件付きランダムフィールドを訓練し、前記訓練後のｉ番目のタイミング畳み込みニューラルネットワーク－条件付きランダムフィールドモデルを得るステップＳ６と、を実行するために用いられる、ことを特徴とする請求項６に記載のディープラーニングに基づく中国語単語分割装置。
記憶媒体であって、前記記憶媒体は、記憶されるプログラムを含み、前記プログラムの運転中に、前記記憶媒体が位置する機器を制御して、
訓練コーパスデータを文字レベルのデータに変換するステップと、
前記文字レベルのデータをシーケンスデータに変換するステップと、
予め設定された符号に基づいて前記シーケンスデータを分割し、複数のサブシーケンスデータを取得し、サブシーケンスデータの長さに基づいて前記複数のサブシーケンスデータをグループ化し、Ｋ個のデータセットを得るステップであって、前記Ｋ個のデータセットのうちの各々のデータセットに含まれるサブシーケンスデータの長さが同じであり、Ｋは、１より大きい自然数であるステップと、
ｉ番目のデータセットから複数のサブシーケンスデータを抽出し、抽出した前記複数のサブシーケンスデータをｉ番目のタイミング畳み込みニューラルネットワーク－条件付きランダムフィールドモデルに入力し、前記ｉ番目のタイミング畳み込みニューラルネットワーク－条件付きランダムフィールドモデルを訓練し、訓練後のｉ番目のタイミング畳み込みニューラルネットワーク－条件付きランダムフィールドモデルを取得し、ｉを順に１～Ｋの自然数とし、合計でＫ個の訓練後のタイミング畳み込みニューラルネットワーク－条件付きランダムフィールドモデルを得るステップと、
前記ターゲットコーパスデータを文字レベルのデータに変換し、第１データを取得し、前記第１データをシーケンスデータに変換し、第２データを取得し、前記第２データを前記Ｋ個の訓練後のタイミング畳み込みニューラルネットワーク－条件付きランダムフィールドモデルのうちの少なくとも１つの訓練後のタイミング畳み込みニューラルネットワーク－条件付きランダムフィールドモデルに入力し、前記ターゲットコーパスデータの単語分割結果を得るステップと、を行わせる、ことを特徴とする記憶媒体。
前記プログラムの運転中に、前記記憶媒体が位置する機器を制御して、前記抽出された前記複数のサブシーケンスデータをｉ番目のタイミング畳み込みニューラルネットワーク－条件付きランダムフィールドモデルに入力し、前記ｉ番目のタイムイング畳み込みニューラルネットワーク－条件付きランダムフィールドモデルを訓練し、訓練後のｉ番目のタイミング畳み込みニューラルネットワーク－条件付きランダムフィールドモデルを得る前記ステップを行わせるステップは、
前記ｉ番目のタイミング畳み込みニューラルネットワーク－条件付きランダムフィールドモデルにおけるタイミング畳み込みニューラルネットワークであるｉ番目のタイミング畳み込みニューラルネットワークに、抽出された前記複数のサブシーケンスデータを入力してフォワード伝播を行い、第１出力データを得るステップＳ１と、
前記第１出力データ及び入力された前記複数のサブシーケンスデータに基づいて損失関数の値を計算するステップＳ２と、
前記損失関数の値がデフォルト値より大きいと、前記複数のサブシーケンスデータを前記ｉ番目のタイミング畳み込みニューラルネットワークに入力してバックワード伝播を行い、且つ前記ｉ番目のタイミング畳み込みニューラルネットワークのネットワークパラメータを最適化するステップＳ３と、
前記損失関数の値が前記デフォルト値以下になるまで、ステップＳ１～Ｓ３を繰り返すステップＳ４と、
前記損失関数の値が前記デフォルト値以下になると、訓練完了を決定し、訓練後のｉ番目のタイミング畳み込みニューラルネットワークを得るステップＳ５と、
前記ｉ番目のタイミング畳み込みニューラルネットワーク－条件付きランダムフィールドモデルにおける条件付きランダムフィールドであるｉ番目の条件付きランダムフィールドに、前記訓練後のｉ番目のタイミング畳み込みニューラルネットワークから出力されたデータを入力し、且つ前記ｉ番目の条件付きランダムフィールドを訓練し、前記訓練後のｉ番目のタイミング畳み込みニューラルネットワーク－条件付きランダムフィールドモデルを得るステップＳ６と、を含む、ことを特徴とする請求項８に記載の記憶媒体。
プログラム命令を含む情報を記憶するためのメモリと、プログラム命令の実行を制御するためのプロセッサと、を含むコンピュータ機器であって、前記プログラム命令がプロセッサによりロードされて実行されると、
訓練コーパスデータを文字レベルのデータに変換するステップと、
前記文字レベルのデータをシーケンスデータに変換するステップと、
予め設定された符号に基づいて前記シーケンスデータを分割し、複数のサブシーケンスデータを取得し、サブシーケンスデータの長さに基づいて前記複数のサブシーケンスデータをグループ化し、Ｋ個のデータセットを得るステップであって、前記Ｋ個のデータセットのうちの各々のデータセットに含まれるサブシーケンスデータの長さが同じであり、Ｋは、１より大きい自然数であるステップと、
ｉ番目のデータセットから複数のサブシーケンスデータを抽出し、抽出した前記複数のサブシーケンスデータをｉ番目のタイミング畳み込みニューラルネットワーク－条件付きランダムフィールドモデルに入力し、前記ｉ番目のタイミング畳み込みニューラルネットワーク－条件付きランダムフィールドモデルを訓練し、訓練後のｉ番目のタイミング畳み込みニューラルネットワーク－条件付きランダムフィールドモデルを取得し、ｉを順に１～Ｋの自然数とし、合計でＫ個の訓練後のタイミング畳み込みニューラルネットワーク－条件付きランダムフィールドモデルを得るステップと、
ターゲットコーパスデータを文字レベルのデータに変換し、第１データを取得し、前記第１データをシーケンスデータに変換し、第２データを取得し、前記第２データを前記Ｋ個の訓練後のタイミング畳み込みニューラルネットワーク－条件付きランダムフィールドモデルのうちの少なくとも１つの訓練後のタイミング畳み込みニューラルネットワーク－条件付きランダムフィールドモデルに入力し、前記ターゲットコーパスデータの単語分割結果を得るステップと、を実施する、ことを特徴とするコンピュータ機器。