JP2021039727A

JP2021039727A - テキスト処理方法、装置、電子機器及びコンピュータ読み取り可能な記憶媒体

Info

Publication number: JP2021039727A
Application number: JP2020085110A
Authority: JP
Inventors: スーリー; Li Xu; ミンジャンリー; Mingjiang Li; ペンフェィワン; Pengfei Wang; シーマンジャン; Shimang Jiang; アンシンリー; Anxin Li; シンユグオ; xin yu Guo
Original assignee: NTT Docomo Inc
Current assignee: NTT Docomo Inc
Priority date: 2019-09-02
Filing date: 2020-05-14
Publication date: 2021-03-11
Also published as: CN112528645A

Abstract

【課題】異なる単語分割方法の利点を融合し、トレーニング言語資料が少ない特定分野への適応を実現することによって、統計的学習に基づく単語分割方法及び深層学習に基づく単語分割方法より高い単語分割性能を得ることができるニューラルネットワークに基づくテキスト処理方法、装置、電子機器及びコンピュータ読み取り可能な記憶媒体を提供する。【解決手段】テキスト処理方法は、入力テキストを取得するステップと、入力テキストに対して第１テキスト処理を行い、入力テキストの第１前処理結果を取得するステップと、入力テキストに対して第２テキスト処理を行い、入力テキストの第２前処理結果を取得するステップと、第１前処理結果と第２前処理結果とに基づいて、入力テキストの処理結果を生成するステップと、を含む。第１テキスト処理は、深層学習に基づく分類処理であり、第２テキスト処理は、統計的学習に基づく分類処理である。【選択図】図２

Description

本願は、自然言語処理分野に関し、具体的には、ニューラルネットワークに基づくテキスト処理方法、装置、電子機器及びコンピュータ読み取り可能な記憶媒体に関する。

自然言語処理（ＮＬＰ）は、人工知能技術の重要な応用分野の１つである。コンピュータは、自然言語処理によって、人間のように文字を閲覧して、文字の背後にある意味を理解することができ、それにより、機械翻訳、自動質問応答、情報検索、感情解析、テキスト自動要約などの具体的な応用を完了する。コンピュータが人間のテキストを理解するようにさせるために、コンピュータに単語のそれぞれの意味を正確に把握させる必要がある。したがって、自然言語処理で、単語分割技術は、非常に基本的なモジュールである。

従来の単語分割方法は、主に、統計的学習に基づく単語分割方法と、深層学習に基づく単語分割方法と、を含む。統計的学習に基づく単語分割方法は、例えば、隠れマルコフモデル（ＨｉｄｅｎＭａｒｋｏｖＭｏｄｅｌ、ＨＭＭ）、Ｎグラムモデル（Ｎ−ｇｒａｍ）、最大エントロピーモデル（ＭＥ）、条件付き確率場モデル（ＣｏｎｄｉｔｉｏｎａｌＲａｎｄｏｍＦｉｅｌｄｓ、ＣＲＦ）などに基づく単語分割方法を含む。統計的学習に基づく単語分割方法は、一般的に、高い汎化性を有するが、単語分割性能が限られる（例えば、Ｆ１点数が低い）。深層学習に基づく単語分割方法は、例えば、畳み込みニューラルネットワーク（ＣＮＮ）、回帰型ニューラルネットワーク（ＲＮＮ）、長・短期記憶（ＬＳＴＭ）ニューラルネットワークなどを用いる単語分割方法を含む。深層学習に基づく単語分割方法は、十分なトレーニング言語資料データがある場合、単語分割性能が統計的学習に基づく単語分割方法より優れるが、トレーニング言語資料データが不足である場合、単語分割性能が急速に低下してしまう。したがって、異なる単語分割方法の利点を融合し、トレーニング言語資料が少ない特定分野への適応を実現することによって、統計的学習に基づく単語分割方法及び深層学習に基づく単語分割方法より高い単語分割性能を得ることが望まれている。

上記問題に鑑みて、本開示は、ニューラルネットワークに基づくテキスト処理方法、装置、電子機器及びコンピュータ読み取り可能な記憶媒体を提供する。

本開示の一形態によれば、入力テキストを取得するための受信ユニットと、前記入力テキストに対して第１テキスト処理を行い、前記入力テキストの第１前処理結果を取得するための第１処理ユニットと、前記入力テキストに対して第２テキスト処理を行い、前記入力テキストの第２前処理結果を取得するための第２処理ユニットと、前記第１前処理結果と前記第２前処理結果とに基づいて、前記入力テキストの処理結果を生成するための処理結果生成ユニットと、を含み、前記第１テキスト処理は、深層学習に基づく分類処理であり、前記第２テキスト処理は、統計的学習に基づく分類処理である、ニューラルネットワークに基づくテキスト処理装置が提供される。

また、本開示の一形態に係るテキスト処理装置であって、前記処理結果出力ユニットは、前記第１前処理結果と前記第２前処理結果とが同一であるか否かを判断するための判断ユニットと、前記第１前処理結果と前記第２前処理結果とが同一である場合、同一の前記第１前処理結果と前記第２前処理結果とを前記処理結果とし、前記第１前処理結果と前記第２前処理結果とが異なる場合、異なる前記第１前処理結果と前記第２前処理結果とに対して第３テキスト処理を行い、前記入力テキストの処理結果を生成するための第３処理ユニットと、を含み、前記第３テキスト処理は、サポートベクタマシンに基づく分類処理である。

また、本開示の一形態に係るテキスト処理装置であって、前記第１テキスト処理を行う第１処理ユニット及び前記第２テキスト処理を行う第２処理ユニットを第１コーパスでトレーニングし、前記第３テキスト処理を行う第３処理ユニットを第２コーパスでトレーニングするためのトレーニングユニットをさらに含み、前記第１コーパスに含まれる言語資料の数が、前記第２コーパスに含まれる言語資料の数よりも多い。

また、本開示の一形態に係るテキスト処理装置であって、前記処理結果に基づいて前記入力テキストに対応する出力テキストを生成するための出力ユニットをさらに含み、前記第１前処理結果、前記第２前処理結果及び前記第３処理結果がそれぞれ前記入力テキストにおける各文字の位置ラベルを指示し、前記出力テキストが前記入力テキストに対応する単語分割テキストである。

本開示の別の一態様によれば、入力テキストを取得するステップと、前記入力テキストに対して第１テキスト処理を行い、前記入力テキストの第１前処理結果を取得するステップと、前記入力テキストに対して第２テキスト処理を行い、前記入力テキストの第２前処理結果を取得するステップと、前記第１前処理結果と前記第２前処理結果とに基づいて、前記入力テキストの処理結果を生成するステップと、を含み、前記第１テキスト処理は、深層学習に基づく分類処理であり、前記第２テキスト処理は、統計的学習に基づく分類処理である、ニューラルネットワークに基づくテキスト処理方法が提供される。

また、本開示の別の一態様に係るテキスト処理方法であって、前記第１前処理結果と前記第２前処理結果とに基づいて、前記入力テキストの処理結果を生成するステップは、前記第１前処理結果と前記第２前処理結果とが同一であるか否かを判断するステップと、前記第１前処理結果と前記第２前処理結果とが同一である場合、同一の前記第１前処理結果と前記第２前処理結果とを前記処理結果とするステップと、前記第１前処理結果と前記第２前処理結果とが異なる場合、異なる前記第１前処理結果と前記第２前処理結果とに対して第３テキスト処理を行い、前記入力テキストの処理結果を生成するステップと、を含み、前記第３テキスト処理は、サポートベクタマシンに基づく分類処理である。

また、本開示の別の一態様に係るテキスト処理方法であって、前記第１テキスト処理を行う第１処理ユニット及び前記第２テキスト処理を行う第２処理ユニットを第１コーパスでトレーニングするステップと、前記第３テキスト処理を行う第３処理ユニットを第２コーパスでトレーニングするステップと、をさらに含み、前記第１コーパスに含まれる言語資料の数が、前記第２コーパスに含まれる言語資料の数よりも多い。

また、本開示の別の一態様に係るテキスト処理方法であって、前記処理結果に基づいて前記入力テキストに対応する出力テキストを生成することをさらに含み、前記第１前処理結果、前記第２前処理結果及び前記第３処理結果がそれぞれ前記入力テキストにおける各文字の位置ラベルを指示し、前記出力テキストが前記入力テキストに対応する単語分割テキストである。

本開示のまた別の一態様によれば、プロセッサと、コンピュータプログラム命令を記憶するためのストレージと、を含み、前記コンピュータプログラム命令が前記プロセッサによってロードされて実行されるとき、前記プロセッサが上述したテキスト処理方法を実行する、電子機器が提供される。

本開示のさらに別の一態様によれば、コンピュータプログラム命令が記憶され、前記コンピュータプログラム命令がプロセッサによってロードされて実行されるとき、前記プロセッサが上述したテキスト処理方法を実行する、コンピュータ読み取り可能な記憶媒体が提供される。

以下、詳細に説明されるように、本開示の実施例に係るニューラルネットワークに基づくテキスト処理方法、装置、電子機器及びコンピュータ読み取り可能な記憶媒体は、異なる単語分割方法の利点を融合し、トレーニング言語資料が少ない特定分野への適応を実現することによって、統計的学習に基づく単語分割方法及び深層学習に基づく単語分割方法より高い単語分割性能を得る。

なお、以上の一般的な説明及び以下の詳細な説明は、いずれも、例示的なものであり、特許を請求する技術に対する更なる説明を提供するために意図されたものである。

本開示の上記及び他の目的、特徴及び利点は、図面を参照して本開示の実施例についてさらに詳細に説明することによって、より明らかになる。図面は、本開示の実施例に対するさらなる理解を提供するためのものであり、明細書の一部を構成し、本開示の実施例とともに本開示を解釈し、本開示に対する限定を構成するものではない。図面において、同じ参照符号は、一般的に同じ部材又はステップを示すものである。

本開示の実施例に係るテキスト処理方法の応用シナリオを概説する模式図である。本開示の実施例に係るテキスト処理方法を示すフローチャートである。本開示の実施例に係るテキスト処理方法をさらに示すフローチャートである。本開示の実施例に係るテキスト処理装置を示すブロック図である。本開示の実施例に係るテキスト処理方法におけるトレーニングプロセスを示すフローチャートである。本開示の実施例に係るテキスト処理方法におけるトレーニングプロセスを示すブロック図である。本開示の実施例に係るテキスト処理方法におけるトレーニングプロセスを示すブロック図である。本開示の実施例に係る電子機器を示すハードウェアブロック図である。本開示の実施例に係るコンピュータ読み取り可能な記憶媒体を示す模式図である。

本開示の目的、技術案及び利点をさらに明瞭にするために、以下、図面を参照して、本開示の例示的な実施例について詳細に説明する。明らかなように、説明される実施例は、本開示の一部の実施例にすぎず、本開示のすべての実施例ではない。本開示は、ここで説明される例示的な実施例で限定されないことを理解すべきである。

まず、図１を参照して、本開示の実施例に係るテキスト処理方法の応用シナリオを説明する。

図１は、本開示の実施例に係るテキスト処理方法の応用シナリオを概説する模式図である。図１に示すように、本開示の実施例に係るテキスト処理方法は、自然言語処理システム１０に適用することができる。自然言語処理システム１０には、自然言語処理装置１００が配置される。自然言語処理装置１００は、通信ネットワーク１０３を介してユーザー１０１ａ〜１０１ｃそれぞれのユーザー機器１０２ａ〜１０２ｃとデータ通信を実行する。

自然言語処理システム１０は、例えば、スマートカスタマーサービスシステムであってもよい。スマートカスタマーサービスシステムは、自然言語理解の意味検索技術、マルチチャンネル知識サービス技術及び大規模知識ベースの構築技術を融合し、ユーザーに最も自然な方式で自分の情報又は知識ニーズを表現させ、ユーザーに最もほしい正確な情報をフィードバックすることができる必要がある。したがって、スマートカスタマーサービスシステムの最も重要なタスクは、ユーザーの問い合わせ問題に対して自然言語解析を行い、問い合わせ問題の意味及び他の均等の問い合わせ質問を決定し、この後、知識ベースに対する検索によって、ユーザーに問い合わせ問題の正確な答えをフィードバックすることである。

また、上記した自然言語処理システム１０は、さらに、例えば、スマートチャットロボットシステムであってもよい。スマートチャットロボットシステムがユーザーとリアルタイムにインタラクティブチャットを行う過程で、最も重要なタスクも、ユーザーのチャットコンテンツに対して自然言語解析を行い、チャットコンテンツの意味及び他の均等コンテンツを決定し、この後、知識ベースに対する検索によって、ユーザーにチャットコンテンツに対する適切な回答をフィードバックすることである。

自然言語処理装置１００は、例えば、検索エンジンサーバ、コンテンツ提供サーバなどの、ビッグデータ処理能力及び大容量データ記憶能力が配置されるサーバ装置を含むがこれらに限られない。ユーザー機器１０２ａ〜１０２ｃは、ノートコンピュータ、デスクトップコンピュータ、スマートフォン、タブレットコンピュータなどの、データ処理能力を有する移動端末又は固定端末を含むがこれらに限られない。通信ネットワーク１０３は、例えば、転送制御プロトコル/インターネットプロトコル（ＴＣＰ/ＩＰ）、ユーザーデータグラムプロトコル（ＵＤＰ）、ハイパーテキスト・トランスファー・プロトコル（ＨＴＴＰ）及び/又はファイル転送プロトコル（ＦＴＰ）にしたがって配置されるインターネット、ＩＰＴＶネットワーク、ワイヤレスフィデリティ（Ｗｉ−Ｆｉ）ネットワーク、無線ローカルエリアネットワーク（ＷＬＡＮ）、ローカルエリアネットワーク（ＬＡＮ）及び/又はメトロポリタンエリアネットワーク（ＭＡＮ）などを含むがこれらに限られない。

本開示の一実施例では、自然言語処理装置１００は、例えば、検索エンジンサーバである。自然言語処理装置１００は、ユーザー機器１０２ａ〜１０２ｃによって通信ネットワーク１０３を介して提出される問題を受信し、問題と自装置からのドキュメントに対する理解に基づいて、ユーザー１０１ａ〜１０１ｃに自動的に答えを提供する。

本開示の別の一実施例では、自然言語処理装置１００は、さらに、例えば、機械翻訳装置、感情解析装置、テキスト自動要約装置などであってもよい。

以下、説明されるとおり、本開示の実施例に係るテキスト処理装置は、本開示の実施例に係るテキスト処理方法を実行するために、自然言語処理装置１００に配置されてもよい。具体的には、本開示の実施例に係るテキスト処理方法は、自然言語処理のうちの単語分割処理を実行するためのものであってもよい。

以下、図２〜図４を参照しながら、本開示の実施例に係るテキスト処理装置及び方法について説明する。図２は、本開示の実施例に係るテキスト処理方法を示すフローチャートであり、図３は、本開示の実施例に係るテキスト処理方法をさらに示すフローチャートであり、図４は、本開示の実施例に係るテキスト処理装置を示すブロック図である。

図２に示すように、本開示の実施例に係るテキスト処理方法は、以下のステップを含む。

ステップＳ２０１で、入力テキストを取得する。本開示の一実施例では、ユーザーがキーボードなどの入力機器を介して入力するテキストデータを受信してもよく、又は、ユーザーが入力する音声データを受信し、次に、音声認識と変換によって音声データをテキストデータに変換してもよい。代替的には、ローカルに記憶されるテキストデータを読み取り、又は、外部から転送されるテキストデータを、通信ネットワークを経由して受信してもよい。後続のステップで、取得される入力テキストに対してテキスト処理を実行する。具体的には、本開示の一実施例では、取得される入力テキストに対して単語分割処理を実行する。本開示の実施例に係るテキスト処理は、単語分割処理に限られず、例えば、名前付きエンティティの認識、品詞タグ付け、構文解析、意味解析、文章解析などを含んでもよいことは、容易に理解され得る。

ステップＳ２０２で、入力テキスト情報に対して第１テキスト処理を行い、入力テキストの第１前処理結果を取得する。本開示の一実施例では、前記第１テキスト処理は、深層学習に基づく分類処理である。例えば、前記第１テキスト処理は、例えば、畳み込みニューラルネットワーク（ＣＮＮ）、回帰型ニューラルネットワーク（ＲＮＮ）、長・短期記憶（ＬＳＴＭ）ニューラルネットワークなどを用いて入力テキスト情報に対して実行されるものである。

具体的には、前記第１テキスト処理は、畳み込みニューラルネットワーク（ＣＮＮ）を用いる単語分割処理である。畳み込みニューラルネットワーク（ＣＮＮ）を用いる単語分割処理で、まず、入力テキスト情報の文字のそれぞれに対してベクトル化表現を実行し、例えば、入力テキスト情報に対してワンホット表現（Ｏｎｅ−ｈｏｔＲｅｐｒｅｓｅｎｔａｔｉｏｎ）を実行する。この後、ベクトル化表現されるテキスト情報に対して各畳み込み層を用いて特徴を抽出する。最後に、ビタビ（Ｖｉｔｅｒｂｉ）アルゴリズムを用いて入力テキスト情報の文字のそれぞれが対応するラベルに属する確率を取得する。単語分割処理の場合、文字のそれぞれのラベルは、｛Ｂ，Ｍ，Ｅ，Ｓ｝という４つのクラスを含み、Ｂは、単語における開始文字を代表し、Ｍは、単語における途中文字を代表し、Ｅは、単語における終わり文字を代表し、Ｓは、１文字からなる単語を代表する。このように取得される入力テキスト情報の文字のそれぞれが対応するラベルに属する確率を、入力テキストの第１前処理結果とする。

ステップＳ２０３で、入力テキスト情報に対して第２テキスト処理を行い、入力テキストの第２前処理結果を取得する。本開示の一実施例では、前記第２テキスト処理は、統計的学習に基づく分類処理である。例えば、前記第２テキスト処理は、例えば、隠れマルコフモデル（ＨｉｄｅｎＭａｒｋｏｖＭｏｄｅｌ、ＨＭＭ）、Ｎグラムモデル（Ｎ−ｇｒａｍ）、最大エントロピーモデル（ＭＥ）、条件付き確率場モデル（ＣｏｎｄｉｔｉｏｎａｌＲａｎｄｏｍＦｉｅｌｄｓ、ＣＲＦ）などを用いて入力テキスト情報に対して実行されるものである。

具体的には、前記第２テキスト処理は、隠れマルコフモデル（ＨＭＭ）を用いる単語分割処理である。隠れマルコフモデルは、初期状態確率分布π、状態転移確率分布Ａ及び観測確率分布Ｂによって決定される。１）任意時点ｔの状態が前の時点の状態にしか依存せず、その他の時点の状態と観測シーケンスに関係ない仮定、２）任意時点の観測が該時点のマルコフ状態にしか依存せず、その他の観測、状態に関係ない仮定、といった２つの仮定が存在する。状態値集合Ｑを｛Ｂ，Ｍ，Ｅ，Ｓ｝にし、Ｂ、Ｍ、Ｅ、Ｓの意味を上記のようにする。観測シーケンスを文とする。ＨＭＭによって求解して観測シーケンスに対応する状態シーケンスを得る。このように取得される入力テキスト情報の文字のそれぞれが対応するラベルに属する確率を、入力テキストの第２前処理結果とする。

深層学習に基づいて取得される第１前処理結果又は統計的学習に基づいて取得される第２前処理結果を直接単語分割用の処理結果とするステップとは異なって、本開示の実施例によれば、さらに、ステップＳ２０４で前記第１前処理結果と前記第２前処理結果との両方に基づいて、前記入力テキストの処理結果を生成する。

図３は、本開示の実施例に係るテキスト処理方法をさらに示すフローチャートである。図３に示すステップＳ３０１〜Ｓ３０３は、図２に示すステップＳ２０１〜Ｓ２０３と同一であり、ここでその繰り返し説明が省略される。

ステップＳ３０３の後、深層学習に基づいて第１前処理結果を取得し、統計的学習に基づいて第２前処理結果を取得しており、処理がステップＳ３０４に進む。

ステップＳ３０４で、第１前処理結果と第２前処理結果とが同一であるか否かを判断する。

第１前処理結果と第２前処理結果における、１つの文字に対して取得されるラベル｛Ｂ，Ｍ，Ｅ，Ｓ｝シーケンスのうちの最大可能なラベルが同一である場合、例えば、第１前処理結果｛Ｂ０．５，Ｍ０．１，Ｅ０．２，Ｓ０．２｝と第２前処理結果｛Ｂ０．４，Ｍ０．２，Ｅ０．２，Ｓ０．２｝とが、いずれも該文字がＢラベルの確率が最大であることを示す場合、該文字に対する第１前処理結果と第２前処理結果とが同一であると考え、処理がステップＳ３０５に進む。

ステップＳ３０５で、同一の第１前処理結果と第２前処理結果とを最終的な処理結果とする。

これと異なって、第１前処理結果と第２前処理結果における、１つの文字に対して取得されるラベル｛Ｂ，Ｍ，Ｅ，Ｓ｝シーケンスのうちの最大可能なラベルが同一ではない場合、例えば、第１前処理結果｛Ｂ０．５，Ｍ０．１，Ｅ０．２，Ｓ０．２｝が、該文字がＢラベルの確率が最大であることを示すが、第２前処理結果｛Ｂ０．２，Ｍ０．４，Ｅ０．２，Ｓ０．２｝が、該文字がＭラベルの確率が最大であることを示す場合、該文字に対する第１前処理結果と第２前処理結果とが異なると考え、処理がステップＳ３０６に進む。

ステップＳ３０６で、異なる前記第１前処理結果と前記第２前処理結果とに対して第３テキスト処理を行い、前記入力テキストの処理結果を生成する。

本開示の一実施例では、前記第３テキスト処理は、サポートベクタマシンに基づく分類処理である。前記第３テキスト処理で、異なる前記第１前処理結果と前記第２前処理結果とを前記第３テキスト処理の入力とする。例えば、｛Ｂ０．５，Ｍ０．１，Ｅ０．２，Ｓ０．２｝と｛Ｂ０．２，Ｍ０．４，Ｅ０．２，Ｓ０．２｝とを特徴ベクトルとし、入力される特徴ベクトルをサポートベクタマシンの分類処理でさらに分類して前記入力テキストの最終処理結果を取得する。

ステップＳ３０７で、前記処理結果に基づいて前記入力テキストに対応する出力テキストを生成する。

本開示の一実施例では、前記出力テキストは、前記入力テキストに対応する単語分割テキストである。例えば、入力テキストが「今天天気不錯」であり、前記処理による結果が「ＢＥＢＥＢＥ」であり、入力テキストに対応する単語分割テキストが「今天/天気/不錯」である。

図４は、本開示の実施例に係るテキスト処理装置を示すブロック図である。図４に示すように、本開示の実施例に係るテキスト処理装置４００は、入力ユニット４０１と、第１処理ユニット４０２と、第２処理ユニット４０３と、処理結果生成ユニット４０４と、出力ユニット４０５と、を含む。処理結果生成ユニット４０４は、判断ユニット４０４１と、第３処理ユニット４０４２とをさらに含む。また、図４に示されていないが、本開示の実施例に係るテキスト処理装置４００は、トレーニングユニット４０６をさらに含んでもよい（図６Ａ及び６Ｂに示す）。これらのユニットモジュールが、ハードウェア単独で、ソフトウェア単独で、又はそれらの組み合わせにより、様々な形態で実現することができ、本開示がそれらのいずれかに限定されないことは、当業者に認識され得る。

入力ユニット４０１は、入力テキストＴ_ＩＮを取得するために用いられる。本開示の一実施例では、入力ユニット４０１は、ユーザーがキーボードなどの入力機器を介して入力するテキストデータを受信してもよく、又は、ユーザーが入力する音声データを受信し、次に、音声認識と変換によって音声データをテキストデータに変換してもよい。代替的には、入力ユニット４０１は、ローカルに記憶されるテキストデータを読み取り、又は、外部から転送されるテキストデータを、通信ネットワークを経由して受信してもよい。後続のステップで、取得される入力テキストに対してテキスト処理を実行する。具体的には、本開示の一実施例では、取得される入力テキストに対して単語分割処理を実行する。本開示の実施例に係るテキスト処理は、単語分割処理に限られず、例えば、名前付きエンティティの認識、品詞タグ付け、構文解析、意味解析、文章解析などを含んでもよいことは、容易に理解され得る。

第１処理ユニット４０２は、入力テキスト情報Ｔ_ＩＮに対して第１テキスト処理を行い、入力テキストの第１前処理結果Ｒ_１を取得するために用いられる。本開示の一実施例では、第１処理ユニット４０２は、深層学習に基づく分類処理を実行する。例えば、第１処理ユニット４０２は、例えば、畳み込みニューラルネットワーク（ＣＮＮ）、回帰型ニューラルネットワーク（ＲＮＮ）、長・短期記憶（ＬＳＴＭ）ニューラルネットワークなどを用いて入力テキスト情報に対して第１テキスト処理を実行する。

第２処理ユニット４０３は、入力テキスト情報に対して第２テキスト処理を行い、入力テキストの第２前処理結果Ｒ_２を取得するために用いられる。本開示の一実施例では、第２処理ユニット４０３は、統計的学習に基づく分類処理を実行する。例えば、第２処理ユニット４０３は、例えば、隠れマルコフモデル（ＨｉｄｅｎＭａｒｋｏｖＭｏｄｅｌ、ＨＭＭ）、Ｎグラムモデル（Ｎ−ｇｒａｍ）、最大エントロピーモデル（ＭＥ）、条件付き確率場モデル（ＣｏｎｄｉｔｉｏｎａｌＲａｎｄｏｍＦｉｅｌｄｓ、ＣＲＦ）などを用いて入力テキスト情報に対して第２テキスト処理を実行する。

処理結果生成ユニット４０４は、前記第１前処理結果と前記第２前処理結果との両方に基づいて、前記入力テキストの処理結果を生成するために用いられる。

具体的には、処理結果生成ユニット４０４における判断ユニット４０４１は、第１前処理結果Ｒ_１と第２前処理結果Ｒ_２とが同一であるか否かを判断する。第１前処理結果と第２前処理結果における、１つの文字に対して取得されるラベル｛Ｂ，Ｍ，Ｅ，Ｓ｝シーケンスのうちの最大可能なラベルが同一である場合、例えば、第１前処理結果｛Ｂ０．５，Ｍ０．１，Ｅ０．２，Ｓ０．２｝と第２前処理結果｛Ｂ０．４，Ｍ０．２，Ｅ０．２，Ｓ０．２｝とが、いずれも該文字がＢラベルの確率が最大であることを示す場合、ユニット４０４１は、該文字に対する第１前処理結果と第２前処理結果とが同一であると考える。この場合、判断ユニット４０４１は、同一の第１前処理結果Ｒ_１と第２前処理結果Ｒ_２とを最終的な処理結果として出力ユニット４０５に提供する。

第１前処理結果Ｒ_１と第２前処理結果Ｒ_２とにおいて、１つの文字に対して取得されるラベル｛Ｂ，Ｍ，Ｅ，Ｓ｝シーケンスのうちの最大可能なラベルが同一ではない場合、例えば、第１前処理結果｛Ｂ０．５，Ｍ０．１，Ｅ０．２，Ｓ０．２｝が、該文字がＢラベルの確率が最大であることを示すが、第２前処理結果｛Ｂ０．２，Ｍ０．４，Ｅ０．２，Ｓ０．２｝が、該文字がＭラベルの確率が最大であることを示す場合、判断ユニット４０４１は、該文字に対する第１前処理結果Ｒ_１と第２前処理結果Ｒ_２とが異なると考える。この場合、判断ユニット４０４１は、異なる第１前処理結果Ｒ_１と第２前処理結果Ｒ_２とを第３処理ユニット４０４２に提供する。

第３処理ユニット４０４２は、異なる前記第１前処理結果Ｒ_１と前記第２前処理結果Ｒ_２とに対して第３テキスト処理を行い、前記入力テキストの処理結果を生成する。

本開示の一実施例では、第３処理ユニット４０４２は、サポートベクタマシンに基づく分類処理を実行する。第３処理ユニット４０４２は、｛Ｂ０．５，Ｍ０．１，Ｅ０．２，Ｓ０．２｝と｛Ｂ０．２，Ｍ０．４，Ｅ０．２，Ｓ０．２｝とを特徴ベクトルとし、入力される特徴ベクトルをサポートベクタマシンの分類処理でさらに分類して前記入力テキストの最終処理結果を取得する。

出力ユニット４０５は、前記処理結果に基づいて前記入力テキストに対応する出力テキストＴ_ＯＵＴを生成するために用いられる。本開示の一実施例では、前記出力テキストＴ_ＯＵＴは、前記入力テキストＴ_ＩＮに対応する単語分割テキストである。例えば、入力テキストＴ_ＩＮが「今天天気不錯」であり、前記処理による結果が「ＢＥＢＥＢＥ」であり、入力テキストＴ_ＩＮに対応する単語分割テキストＴ_ＯＵＴが「今天/天気/不錯」である。

図２〜４を参照して上述した本開示の実施例に係るテキスト処理方法及び装置は、異なる単語分割方法の利点を融合することで、異なる単語分割方法による結果が同一の場合、該同一の結果を直接用いて処理時間を節約する。異なる単語分割方法による結果が異なる場合、さらにライト級の第３分類器を用いて異なる単語分割方法の結果に対して再び分類処理を行い、それにより、異なる単語分割方法に比べてより高精度な単語分割効果を確保する。

以下、図５〜図６Ｂを参照して本開示の実施例に係るテキスト処理方法におけるトレーニングプロセスを説明する。図５は、本開示の実施例に係るテキスト処理方法におけるトレーニングプロセスを示すフローチャートであり、図６Ａ及び６Ｂは、本開示の実施例に係るテキスト処理方法におけるトレーニングプロセスを示すブロック図である。

図５に示すように、本開示の実施例に係るテキスト処理方法におけるトレーニングプロセスは、以下のステップを含む。

ステップＳ５０１で、前記第１テキスト処理を行う第１処理ユニットを第１コーパスでトレーニングする。

ステップＳ５０２で、前記第２テキスト処理を行う第２処理ユニットを第１コーパスでトレーニングする。

ステップＳ５０３で、前記第３テキスト処理を行う第３処理ユニットを第２コーパスでトレーニングする。

具体的には、本開示の実施例に係るテキスト処理方法におけるトレーニングプロセスは、図６Ａに示す、第１処理ユニット４０２及び第２処理ユニット４０３に対する第１トレーニング段階と、図６Ｂに示す、第３処理ユニット４０４２に対する第２トレーニング段階と、を含む。

図６Ａに示すように、第１トレーニング段階で、トレーニングユニット４０６は、第１コーパスＣ１で第１処理ユニット４０２及び第２処理ユニット４０３に対してトレーニングを実行し、トレーニング終了条件を満たす第１処理ユニット４０２及び第２処理ユニット４０３を取得する。第１処理ユニット４０２及び第２処理ユニット４０３をトレーニングするためのコーパスは、言語資料の数が、第２トレーニング段階で第３処理ユニット４０４２をトレーニングするためのコーパスに含まれる言語資料の数よりも多いことを満たせば、異なってもよいことは、容易に理解され得る。

図６Ｂに示すように、第２トレーニング段階で、トレーニングユニット４０６は、第２コーパスＣ２で第３処理ユニット４０４２に対してトレーニングを実行する。第１処理ユニット４０２及び第２処理ユニット４０３は、第２コーパスＣ２の言語資料に対してそれぞれ前処理結果Ｒ_Ｃ２１及びＲ_Ｃ２２を生成し、前処理結果Ｒ_Ｃ２１及びＲ_Ｃ２２を入力として第２コーパスＣ２と共同で第３処理ユニット４０４２をトレーニングし、トレーニング終了条件を満たす第３処理ユニット４０４２を取得する。

上述したように、本開示の実施例に係るテキスト処理方法及び装置は、異なる単語分割方法を融合することで、より高精度な単語分割効果を実現することだけではなく、さらに、トレーニング過程で第１処理ユニット及び第２処理ユニットのみを比較的大きなコーパスでトレーニングし、第３処理ユニットを比較的小さなコーパスでトレーニングすればよく、トレーニング言語資料が少ない特定分野への適応を実現することができる。

なお、上記実施形態の説明で用いられるブロック図は、機能単位のブロックを示す。これらの機能ブロック（構成部）は、ハードウェア及び/又はソフトウェアの任意の組み合わせによって実現される。また、各機能ブロックの実現手段は、特に限定されない。すなわち、各機能ブロックは、物理的及び/又は論理的に結合される１つの装置によって実現されてもよいし、物理的及び/又は論理的に分離される２つ以上の装置によって直接的及び/又は間接的に（例えば、有線及び/又は無線）接続し、上記複数装置により実現されてもよい。

例えば、本発明の１つの実施形態における電子機器は、本発明のテキスト処理方法の処理を実行するコンピュータとして機能してもよい。図７は、本開示の実施例に係る電子機器を示すハードウェアブロック図である。図７に示すように、電子機器７００は、物理的には、プロセッサ１００１、メモリ１００２、ストレージ１００３、通信装置１００４、入力装置１００５、出力装置１００６、バス１００７などのコンピュータ装置として構成されてもよい。

なお、以下の説明では、「装置」という文言は、回路、機器、ユニットなどに置き換えることができる。電子機器７００のハードウェア構造は、図に示す各装置を１つ以上含んでもよいし、一部の装置を含まなくてもよい。

例えば、プロセッサ１００１は、１つだけ示されてもよいが、複数であってもよい。また、１つのプロセッサによって処理を実行してもよいし、１つ以上のプロセッサによって同時、順次、又は他の方法で処理を実行してもよい。なお、プロセッサ１００１は、１つ以上のチップで実装されてもよい。

電子機器７００における各機能は、例えば、以下の形態で実現される。予め決定されたソフトウェア（プログラム）をプロセッサ１００１、メモリ１００２などのハードウェア上に読み込ませることで、プロセッサ１００１が演算し、通信装置１００４による通信を制御し、メモリ１００２及びストレージ１００３におけるデータの読み出し及び/又は書き込みを制御する。

プロセッサ１００１は、例えば、オペレーティングシステムを動作させることで、コンピュータ全体を制御する。プロセッサ１００１は、周辺装置とのインターフェース、制御装置、演算装置、レジスタなどの中央処理装置（ＣＰＵ、ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）で構成されてもよい。

また、プロセッサ１００１は、プログラム（プログラムコード）、ソフトウェアモジュール、データなどを、ストレージ１００３及び/又は通信装置１００４からメモリ１００２に読み出し、これらに従って各種の処理を実行する。プログラムとしては、上記実施形態で説明した動作のうちの少なくとも一部をコンピュータに実行させるプログラムが用いられる。例えば、電子機器１０の制御ユニット４０１は、メモリ１００２に格納され、プロセッサ１００１で動作する制御プログラムによって実現されてもよく、他の機能ブロックについても、同様に実現されてもよい。

メモリ１００２は、コンピュータ読み取り可能な記録媒体であり、例えば、読み出し専用メモリ（ＲＯＭ、ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、プログラマブル読み出し専用メモリ（ＥＰＲＯＭ、ＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲＯＭ）、電気的にプログラム可能な読み出し専用メモリ（ＥＥＰＲＯＭ、ＥｌｅｃｔｒｉｃａｌｌｙＥＰＲＯＭ）、ランダムアクセスストレージ（ＲＡＭ、ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、その他の適切な記憶媒体のうちの少なくとも１つで構成されてもよい。メモリ１００２は、レジスタ、キャッシュ、メインメモリ（主記憶装置）などと呼ばれてもよい。メモリ１００２は、本発明の一実施形態に係る無線通信方法を実施するために実行可能なプログラム（プログラムコード）、ソフトウェアモジュールなどを格納することができる。

ストレージ１００３は、コンピュータ読み取り可能な記録媒体であり、例えば、フレキシブルディスク（ｆｌｅｘｉｂｌｅｄｉｓｋ）、フロッピー（登録商標）ディスク（ｆｌｏｐｐｙｄｉｓｋ）、光磁気ディスク（例えば、リードオンリーディスク（ＣＤ−ＲＯＭ（ＣｏｍｐａｃｔＤｉｓｃＲＯＭ）など）、デジタル多用途ディスク、ブルーレイ（Ｂｌｕ−ｒａｙ（登録商標）ディスク）、リムーバブルディスク、ハードディスクドライバ、スマートカード、フラッシュストレージデバイス（例えば、カード、スティック（ｓｔｉｃｋ）、キドライバ（ｋｅｙｄｒｉｖｅｒ））、磁気ストリップ、データベース、サーバその他の適切な記憶媒体のうちの少なくとも１つで構成されてもよい。ストレージ１００３は、補助記憶装置と呼ばれてもよい。

通信装置１００４は、有線及び/又は無線ネットワークを介してコンピュータ間の通信を行うためのハードウェア（送受信機器）であり、例えば、ネットワーク機器、ネットワークコントローラ、ネットワークカード、通信モジュールなどともいう。

入力装置１００５は、外部からの入力を受け付ける入力機器（例えば、キーボード、マウス、マイクロホン、スイッチ、ボタン、センサなど）である。出力装置１００６は、外部への出力を実装する出力機器（例えば、ディスプレイ、スピーカ、発光ダイオード（ＬＥＤ、ＬｉｇｈｔＥｍｉｔｔｉｎｇＤｉｏｄｅ）ランプなど）である。なお、入力装置１００５及び出力装置１００６は、一体となった構造（例えば、タッチパネル）であってもよい。

また、プロセッサ１００１、メモリ１００２などの各装置は、情報を通信するためのバス１００７で接続される。バス１００７は、単一のバスで構成されてもよいし、装置間で異なるバスで構成されてもよい。

また、電子機器７００は、マイクロプロセッサ、デジタル信号プロセッサ（ＤＳＰ、ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ）、専用集積回路（ＡＳＩＣ、ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）、プログラマブルロジック機器（ＰＬＤ、ＰｒｏｇｒａｍｍａｂｌｅＬｏｇｉｃＤｅｖｉｃｅ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ、ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）などのハードウェアを含んでもよく、該ハードウェアにより、各機能ブロックの一部又は全てが実現されてもよい。例えば、プロセッサ１００１は、これらのハードウェアの少なくとも１つで実装されてもよい。

ソフトウェアは、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語と呼ばれるか、他の名称で呼ばれるかを問わず、命令、命令集合、コード、コードセグメント、プログラムコード、プログラム、サブプログラム、ソフトウェアモジュール、アプリケーション、ソフトウェアアプリケーション、ソフトウェアパッケージ、ルーチン、サブルーチン、オブジェクト、実行可能ファイル、実行スレッド、ステップ、機能などを意味するよう広く解釈されるべきである。

また、ソフトウェア、命令などは、転送媒体を介して送受信されてもよい。例えば、ソフトウェアが、有線技術（同軸ケーブル、光ファイバケーブル、ツイストペア、デジタル加入者回線（ＤＳＬ、ＤｉｇｉｔａｌＳｕｂｓｃｒｉｂｅｒＬｉｎｅ）など）及び/又は無線技術（赤外線、マイクロ波など）を使用してウエブサイト、サーバ、又は他のリモートソースから送信される場合、これらの有線技術及び/又は無線技術は、転送媒体の定義内に含まれる。

図８は、本開示の実施例に係るコンピュータ読み取り可能な記憶媒体を示す模式図である。図８に示すように、本開示の実施例に係るコンピュータ読み取り可能な記憶媒体８００には、コンピュータプログラム命令８０１が記憶される。前記コンピュータプログラム命令８０１がプロセッサによって実行されるとき、上述したテキスト処理方法を実行する。前記コンピュータ読み取り可能な記憶媒体は、例えば、揮発性ストレージ及び/又は不揮発性ストレージを含むがこれらに限られない。前記揮発性ストレージは、例えば、ランダムアクセスストレージ（ＲＡＭ）及び/又はキャッシュ（ｃａｃｈｅ）などを含んでもよい。前記不揮発性ストレージは、例えば、読み出し専用メモリ（ＲＯＭ）、ハードディスク、フラッシュストレージ、ディスク、フロッピーディスクなどを含んでもよい。

以上、図面を参照して本開示の実施例に係るニューラルネットワークに基づくテキスト処理方法、装置、電子機器及びコンピュータ読み取り可能な記憶媒体について説明しており、異なる単語分割方法の利点を組み合わせ、トレーニング言語資料が少ない特定分野への適応を実現することによって、統計的学習に基づく単語分割方法及び深層学習に基づく単語分割方法より高い単語分割性能を得る。

本明細書で説明した各形態/実施形態は、単独で用いてもよく、組み合わせて用いてもよく、さらに、実行プロセスで切り替えて用いてもよい。また、本明細書で説明した各形態/実施形態の処理ステップ、シーケンス、フローチャートなどは、矛盾の無い限り、順序を入れ替えてもよい。例えば、本明細書で説明した方法について、例示的な順序で様々なステップのユニットを提示しており、提示した特定の順序に限定されない。

本明細書で使用する「に基づいて」という記載は、別段に明記されていない限り、「のみに基づいて」を意味しない。言い換えれば、「に基づいて」という記載は、「のみに基づいて」と「に少なくとも基づいて」の両方を意味する。

本明細書で「第１」、「第２」などの呼称を使用した場合においては、そのユニットへのいかなる参照も、それらのユニットの量または順序を全般的に限定するものではない。これらの呼称は、２つ以上のユニット間を区別する便利な方法として本明細書で使用され得る。したがって、第１ユニット及び第２ユニットへの参照は、２つのユニットのみがそこで採用され得ること、または何らかの形で第１のユニットが第２のユニットに先行しなければならないことを意味しない。

「含む（ｉｎｃｌｕｄｉｎｇ）」、「含有する（ｃｏｍｐｒｉｓｉｎｇ）」、およびそれらの変形が、本明細書あるいは特許請求の範囲で使用されている限り、これら用語は、用語「備える」と同様に、包括的である。さらに、本明細書あるいは特許請求の範囲において使用されている用語「又は（ｏｒ）」は、排他的論理和ではないことが意図される。

本願の各形態が、任意の新規および有用なプロセス、マシン、製造、もしくは組成物、またはこれらの任意の新規および有用な改良を含め、多数の特許性のあるクラスまたはコンテキストの何れかで説明し記述することが可能であることは、当業者に認識され得る。したがって、本願の各形態は、全体がハードウェアで実行されてもよく、全体がソフトウェア（ファームウェア、常駐ソフトウェア、マイクロコードなどを含む）で実行されてもよく、あるいは、ソフトウェアおよびハードウェアで実行されてもよい。以上のハードウェア又はソフトウェアは、いずれも「データブロック」、「モジュール」、「エンジン」、「ユニット」、「コンポーネント」又は「システム」と呼ばれてもよい。また、本願の各形態は、コンピュータ読み取り可能なプログラムコードを含む、１つ以上のコンピュータ読み取り可能な媒体中に位置するコンピュータプログラム製品として具体化することができる。

本願では、特定の用語が、本願の実施例を説明するために使われている。例えば、「一実施例」、「或る実施例」、及び/又は「一部の実施例」は、本願の少なくとも１つの実施例に関連する特定の特徴、構造又は特性を意味する。故に、認識されるように、本明細書では、様々な箇所における「或る実施例」又は「一実施例」又は「１つの代替的な実施例」への２回以上の言及は、必ずしもなく、同じ実施例に言及しているのではない。また、特定の特徴、構造又は特性は、適切な場合、本願の１つ以上の実施例で組み合わせることができる。

特に定義のない限り、ここで使用される全ての用語（技術用語および科学用語を含む）は、本開示が属する分野の当業者によって一般的に理解される意味と同じ意味を有する。例えば、通常、辞書で定義される用語は、関連技術の文脈における意味と一致する意味を有するものとして解釈されるべきであり、明確にそう定義されていない限り、理想的または過度に正式に解釈されないことがさらに理解されよう。

以上、本発明について詳細に説明したが、本発明が本明細書で説明された実施形態に限定されないことは、当業者にとっては当然のことである。本発明は、特許請求の範囲の記載によって決定される本発明の趣旨と範囲から逸脱することなく、変形と変更形態として実施することができる。したがって、本明細書の記載は、例示的に説明するためのものであり、本発明に対して何らかの限定的な意味を持つものではない。

Claims

ニューラルネットワークに基づくテキスト処理装置であって、
入力テキストを取得するための受信ユニットと、
前記入力テキストに対して第１テキスト処理を行い、前記入力テキストの第１前処理結果を取得するための第１処理ユニットと、
前記入力テキストに対して第２テキスト処理を行い、前記入力テキストの第２前処理結果を取得するための第２処理ユニットと、
前記第１前処理結果と前記第２前処理結果とに基づいて、前記入力テキストの処理結果を生成するための処理結果生成ユニットと、を含み、
前記第１テキスト処理は、深層学習に基づく分類処理であり、前記第２テキスト処理は、統計的学習に基づく分類処理である、テキスト処理装置。
前記処理結果出力ユニットは、
前記第１前処理結果と前記第２前処理結果とが同一であるか否かを判断するための判断ユニットと、
前記第１前処理結果と前記第２前処理結果とが同一である場合、同一の前記第１前処理結果と前記第２前処理結果とを前記処理結果とし、前記第１前処理結果と前記第２前処理結果とが異なる場合、異なる前記第１前処理結果と前記第２前処理結果とに対して第３テキスト処理を行い、前記入力テキストの処理結果を生成するための第３処理ユニットと、を含み、
前記第３テキスト処理は、サポートベクタマシンに基づく分類処理である、請求項１に記載のテキスト処理装置。
前記第１テキスト処理を行う第１処理ユニット及び前記第２テキスト処理を行う第２処理ユニットを第１コーパスでトレーニングし、
前記第３テキスト処理を行う第３処理ユニットを第２コーパスでトレーニングするためのトレーニングユニットをさらに含み、
前記第１コーパスに含まれる言語資料の数が、前記第２コーパスに含まれる言語資料の数よりも多い、請求項１又は２に記載のテキスト処理装置。
前記処理結果に基づいて前記入力テキストに対応する出力テキストを生成するための出力ユニットをさらに含み、
前記第１前処理結果、前記第２前処理結果及び前記第３処理結果がそれぞれ前記入力テキストにおける各文字の位置ラベルを指示し、前記出力テキストが前記入力テキストに対応する単語分割テキストである、請求項１〜３のいずれか１項に記載のテキスト処理装置。
ニューラルネットワークに基づくテキスト処理方法であって、
入力テキストを取得するステップと、
前記入力テキストに対して第１テキスト処理を行い、前記入力テキストの第１前処理結果を取得するステップと、
前記入力テキストに対して第２テキスト処理を行い、前記入力テキストの第２前処理結果を取得するステップと、
前記第１前処理結果と前記第２前処理結果とに基づいて、前記入力テキストの処理結果を生成するステップと、を含み、
前記第１テキスト処理は、深層学習に基づく分類処理であり、前記第２テキスト処理は、統計的学習に基づく分類処理である、テキスト処理方法。
前記第１前処理結果と前記第２前処理結果とに基づいて、前記入力テキストの処理結果を生成するステップは、
前記第１前処理結果と前記第２前処理結果とが同一であるか否かを判断するステップと、
前記第１前処理結果と前記第２前処理結果とが同一である場合、同一の前記第１前処理結果と前記第２前処理結果とを前記処理結果とするステップと、
前記第１前処理結果と前記第２前処理結果とが異なる場合、異なる前記第１前処理結果と前記第２前処理結果とに対して第３テキスト処理を行い、前記入力テキストの処理結果を生成するステップと、を含み、
前記第３テキスト処理は、サポートベクタマシンに基づく分類処理である、請求項５に記載のテキスト処理方法。
前記第１テキスト処理を行う第１処理ユニット及び前記第２テキスト処理を行う第２処理ユニットを第１コーパスでトレーニングするステップと、
前記第３テキスト処理を行う第３処理ユニットを第２コーパスでトレーニングするステップと、をさらに含み、
前記第１コーパスに含まれる言語資料の数が、前記第２コーパスに含まれる言語資料の数よりも多い、請求項５又は６に記載のテキスト処理方法。
前記処理結果に基づいて前記入力テキストに対応する出力テキストを生成するステップをさらに含み、
前記第１前処理結果、前記第２前処理結果及び前記第３処理結果がそれぞれ前記入力テキストにおける各文字の位置ラベルを指示し、前記出力テキストが前記入力テキストに対応する単語分割テキストである、請求項５〜７のいずれか１項に記載のテキスト処理方法。
プロセッサと、
コンピュータプログラム命令を記憶するためのストレージと、を含み、
前記コンピュータプログラム命令が前記プロセッサによってロードされ実行されるとき、前記プロセッサが請求項５〜８のいずれか１項に記載のテキスト処理方法を実行する、電子機器。
プロセッサによってロードされ実行されるとき、前記プロセッサが請求項５〜８のいずれか１項に記載のテキスト処理方法を実行するコンピュータプログラム命令が記憶される、コンピュータ読み取り可能な記憶媒体。