JP2022534375A

JP2022534375A - テキスト知能化洗浄方法、装置及びコンピュータ読み取り可能な記憶媒体

Info

Publication number: JP2022534375A
Application number: JP2021569240A
Authority: JP
Inventors: 子欧鄭; 偉汪
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-07-03
Filing date: 2019-08-23
Publication date: 2022-07-29
Anticipated expiration: 2039-08-23
Also published as: US20220318515A1; JP7286810B2; US11599727B2; CN110442711A; WO2021000391A1; SG11202112454RA; CN110442711B

Abstract

【要約】本願は、人工知能技術に関し、テキスト知能化洗浄方法を開示し、テキストセットを取得し、前記テキストセットに対して前処理操作を行い、単語ベクトルテキストセットを得るステップと、前記単語ベクトルテキストセットに対して全文行列数値化操作を行い、主体単語ベクトル行列及びテキスト単語ベクトル行列を生成するステップと、前記主体単語ベクトル行列をＢｉＬＳＴＭモデルに入力して中間テキストベクトルを生成するステップと、前記テキスト単語ベクトル行列を畳み込みニューラルネットワークモデルに入力して目標テキストベクトルを生成するステップと、前記中間テキストベクトルと前記目標テキストベクトルとを繋ぎ合わせ、結合テキストベクトルを得て、前記結合テキストベクトルを予め構築した意味認識分類器モデルに入力し、集約テキストベクトルを出力し、前記集約テキストベクトルに対して逆回復操作を行い、標準テキストを出力するステップと、を含む。本願は、テキスト知能化洗浄装置及びコンピュータ読み取り可能な記憶媒体をさらに提供する。本願は、テキストに対する精確な洗浄を達成する。

Description

本願は、パリ条約に基づき、２０１９年０７月０３日に提出された、出願番号ＣＮ２０１９１０６０１２５３．７、名称「テキスト知能化洗浄方法、装置及びコンピュータ読み取り可能な記憶媒体」の中国特許出願の優先権を主張し、当該中国特許出願の内容の全てが参照の方式によって本願に組み込まれる。

本願は、人工知能技術の分野に関し、特に、ハイブリッドネットワークモデルに基づくテキストの不自然な改行問題に対するテキスト知能化洗浄方法、装置及びコンピュータ読み取り可能な記憶媒体に関するものである。

異なるチャネルから得られたテキスト（例えば、ｈｔｍｌ抜粋文字、ｐｄｆ抜粋文字など）の組み合わせからなる文書は、コピー、貼り付け後の異なるフォーマットの変換による不自然な改行がある。これらの不自然な改行は、意味に関係がなく、自然段落とは異なる。後続の展示、又は意味解析のいずれかに干渉を来す可能性がある。ある特定の由来の改行発生原因を人工で見て規則をまとめて取り除くのが通常である。しかし、このような方法は移植可能性が悪く、柔軟性が十分でなく、人工的なまとめによるコストが高く、また、正確性が低い。

本願は、異なるフォーマットのテキストのコピー、貼り付けからなる結合テキストの不自然な改行問題を処理し、意味が完全で、階層がはっきりした標準テキストをユーザに呈することを主な目的とする、テキスト知能化洗浄方法、装置及びコンピュータ読み取り可能な記憶媒体を提供する。

上記目的を達成するために、本願にて提供されるテキスト知能化洗浄方法は、
テキストセットを取得し、前記テキストセットに対して前処理操作を行い、単語ベクトルテキストセットを得るステップと、
前記単語ベクトルテキストセットに対して全文行列数値化操作を行い、主体単語ベクトル行列及びテキスト単語ベクトル行列を生成するステップと、
前記主体単語ベクトル行列をＢｉＬＳＴＭモデルに入力して中間テキストベクトルを生成するステップと、
前記テキスト単語ベクトル行列を畳み込みニューラルネットワークモデルに入力して目標テキストベクトルを生成するステップと、
前記中間テキストベクトルと前記目標テキストベクトルとを繋ぎ合わせ、結合テキストベクトルを得て、前記結合テキストベクトルを予め構築した意味認識分類器モデルに入力し、集約テキストベクトルを出力し、前記集約テキストベクトルに対してｗｏｒｄ２ｖｅｃの逆アルゴリズムを用いて逆回復操作を行い、標準テキストを出力するステップと、を含む。

また、上記目的を達成するために、本願は、テキスト知能化洗浄装置をさらに提供し、当該装置は、メモリとプロセッサとを含み、前記メモリに前記プロセッサ上で実行可能なテキスト知能化洗浄プログラムが記憶され、前記テキスト知能化洗浄プログラムは、前記プロセッサによって実行されると、
テキストセットを取得し、前記テキストセットに対して前処理操作を行い、単語ベクトルテキストセットを得るステップと、
前記単語ベクトルテキストセットに対して全文行列数値化操作を行い、主体単語ベクトル行列及びテキスト単語ベクトル行列を生成するステップと、
前記主体単語ベクトル行列をＢｉＬＳＴＭモデルに入力して中間テキストベクトルを生成するステップと、
前記テキスト単語ベクトル行列を畳み込みニューラルネットワークモデルに入力して目標テキストベクトルを生成するステップと、
前記中間テキストベクトルと前記目標テキストベクトルとを繋ぎ合わせ、結合テキストベクトルを得て、前記結合テキストベクトルを予め構築した意味認識分類器モデルに入力し、集約テキストベクトルを出力し、前記集約テキストベクトルに対してｗｏｒｄ２ｖｅｃの逆アルゴリズムを用いて逆回復操作を行い、標準テキストを出力するステップと、を実現する。

また、上記目的を達成するために、本願は、コンピュータ読み取り可能な記憶媒体をさらに提供し、前記コンピュータ読み取り可能な記憶媒体にテキスト知能化洗浄プログラムが記憶され、前記テキスト知能化洗浄プログラムは、上述したテキスト知能化洗浄方法のステップを実現するために、１つ又は複数のプロセッサによって実行されることができる。

本願にて提供されるテキスト知能化洗浄方法、装置及びコンピュータ読み取り可能な記憶媒体は、テキスト洗浄を行う際に、取得されたテキストセットに対して解析処理を行い及びＢｉＬＳＴＭ－ＣＮＮハイブリッドモデルを結び付けて、前記テキスト結合テキストベクトルを得て、前記結合テキストベクトルを予め構築した意味認識分類器モデルに入力し、集約テキストベクトルを出力し、前記集約テキストベクトルを回復することで、標準テキストを得ることができる。

本願の一実施例にて提供されるテキスト知能化洗浄方法のフローチャートの概略図である。本願の一実施例にて提供されるテキスト知能化洗浄装置の内部構造の概略図である。本願の一実施例にて提供されるテキスト知能化洗浄装置におけるテキスト知能化洗浄プログラムのモジュールの概略図である。本願の目的の実現、機能的特徴及び利点は、実施例を結び付けて、添付図面を参照してさらに説明する。

なお、本明細書に記載の具体的な実施例は、本願を説明するためのものにすぎず、本願を限定するものではないことを理解されたい。

本願は、テキスト知能化洗浄方法を提供する。図１を参照すると、本願の一実施例にて提供されるテキスト知能化洗浄方法のフローチャートの概略図である。当該方法は、ソフトウェア及び／又はハードウェアによって実現され得る装置によって実行され得る。

本実施例において、テキスト知能化洗浄方法は、以下を含む。

Ｓ１、テキストセットを取得し、前記テキストセットに対して前処理操作を行い、単語ベクトルテキストを得る。

本願の好ましい実施例において、前記テキストセットは、ネットワークでキーワード検索を行うことにより取得される方式１、北京大学の中国言語学センターのコーパスからダウンロードにより取得される方式２という２つの方式で取得される。

本願の前記前処理操作は、ｓｐｌｉｔ文字列により前記テキストセットに対してテキスト分割操作を行い、単位語句を得るステップと、ｗｏｒｄ２ｖｅｃモデルを利用して前記単位語句セットを前記単語ベクトルテキストセットに変換するステップと、を含む。

詳しくは、前記ｓｐｌｉｔ文字列分割が前記テキストセットに対してテキスト分割操作を行うことは、単一の記号を区切り文字とし、前記区切り文字が「｜」、「＊」、「＾」などであり得、前記区切り文字に基づいて前記テキストセットを単位語句に分割して単位語句セットを得ることである。

前記単位語句セットを前記単語ベクトルテキストセットにｗｏｒｄ２ｖｅｃモデルによって変換する前記変換操作は、前記単位語句セットをワンホット（ｏｎｅ－ｈｏｔ）形式で量子化して語彙リストベクトルを得て、前記語彙リストベクトルを前記Ｗｏｒｄ２ｖｅｃモデルに入力し、前記語彙リストベクトルを前記ｗｏｒｄ２ｖｅｃモデルにおける隠れ層を用いて圧縮処理して低次元ベクトルを形成し、前記低次元ベクトルが即ち単語ベクトルテキストであることである。

前記ｏｎｅ－ｈｏｔは、世界中の全ての単語を１つのベクトル中の要素に対応付けることである。例えば、ある単語が出現すると、前記単語に対応する位置を１、それ以外の位置を０と設定することで、前記単語セットにおける単語をいずれもベクトル表現に変換して語彙リストベクトルを形成することができる。

Ｓ２、前記単語ベクトルテキストセットに対して全文行列数値化操作を行い、主体単語ベクトル行列及びテキスト単語ベクトル行列を生成する。

本願の好ましい実施例は、前記単語ベクトルテキストに対して全文行列数値化操作を行うことで、前記単語ベクトルテキストセットの解析の定性化から定量化への遷移を実現する。ここで、前記全文行列数値化操作は、具体的に、所定の前記単語ベクトルテキストにおける語彙量をｎで表し、単語ベクトル次元をｄで表し、単語ベクトル次元は品詞特徴、文字特徴、意味立場、感情的色彩などを含むステップと、単語ベクトル積層により前記所定の単語ベクトルテキストを全体次元ｎ＊ｄの単語ベクトル数値行列Ｘに変換するステップと、自然言語処理と中国語計算会議説明のコーパス（ｎｌｐｃｃ）により前記単語ベクトル数値行列Ｘを判読し、前記所定の単語ベクトルテキストにおける修飾特徴を有するベクトルを抽出して、次元ｎ_１＊ｄの前記テキスト単語ベクトル行列を生成するステップと、前記所定のテキストにおける非修飾特徴を有するベクトルを残して、次元ｎ_２＊ｄの主体単語ベクトル行列を生成するステップと、を含む。

Ｓ３、前記主体単語ベクトル行列をＢｉＬＳＴＭモデルに入力して中間テキストベクトルを生成し、前記テキスト単語ベクトル行列を畳み込みニューラルネットワークモデルに入力して目標テキストベクトルを生成する。

本願に記載のＢｉＬＳＴＭモデルは、ＬＳＴＭ－ｔａｒｇｅｔ及びＬＳＴＭ－ｄｅｓｃｒｉという２つの部分を含む。本願は、前記ＬＳＴＭ－ｔａｒｇｅｔのエンコーダにより前記ｎ_２＊ｄ主体単語ベクトル行列をエンコードし、前向き隠れ状態系列ｈｒ＝｛ｗ１（ａ），ｗ２（ａ），ｗ３（ａ），…，ｗｎ（ａ）｝を得て、前記ＬＳＴＭ－ｄｅｓｃｒｉのエンコーダにより前記ｎ_２＊ｄ主体単語ベクトル行列をエンコードし、後向き隠れ状態系列ｈｌ＝｛ｗ１（ｂ），ｗ２（ｂ），ｗ３（ｂ），…，ｗｎ（ｂ）｝を得る。ｈｒとｈｌとを繋ぎ合わせて操作して、主題単語ベクトルを得て、前記主題単語ベクトルをまとめて前記中間テキストベクトルを得る。前記繋ぎ合わせ操作の計算式は、以下のとおりである。

ここで、前記ｗｋ’は、主題単語ベクトルであり、ｗｋ（ａ）は、前向きｋの隠れ状態系列であり、ｗｋ（ｂ）は、後向きｋの隠れ状態系列である。

さらに、本願の好ましい実施例は、前記次元ｎ_１＊ｄのテキスト単語ベクトル行列を前記畳み込みニューラルネットワークモデル（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋｓ、ＣＮＮ）に入力し、前記畳み込みニューラルネットワークの所定の畳み込みカーネルサイズｗ＊ｄにより前記テキスト単語ベクトル行列に対して畳み込み操作を行い、特徴値ｇを得る。ここで、前記特徴値ｇの計算方法は以下のとおりである。

さらに、本願は、前記特徴値をまとめて操作を行い、畳み込み特徴行列Ｓ＝［ｇ_１，ｇ_２，…ｇ_ｉ，ｇ_ｎ］を得て、前記ｇ_ｉは、具体的な一位置の畳み込みカーネルについて抽出された特徴を表す。

Ｓ４、前記中間テキストベクトルと前記目標テキストベクトルとを繋ぎ合わせ、結合テキストベクトルを得て、前記結合テキストベクトルを予め構築した意味認識分類器モデルに入力し、前記意味認識分類器モデルのＳｏｆｔｍａｘをカウントすることにより集約テキストベクトルを出力し、前記集約テキストベクトルに対してｗｏｒｄ２ｖｅｃの逆アルゴリズムを用いて逆回復操作を行い、標準テキストを出力する。

本願の好ましい実施例において、前記繋ぎ合わせ操作は、前記目標テキストベクトルと前記中間テキストベクトルとを首尾接続操作し、結合テキストベクトルを生成することである。さらに、前記意味認識分類モデルは分類器モデルを含み、前記結合テキストベクトルを分類器モデルに入力し、前記結合テキストベクトルに前記分類器モデルによって集約操作を行い、集約テキストベクトルを得る。前記集約操作は、前記結合テキストベクトルの次元属性が近く且つ意味的に連続なベクトルをフィルタリングし、前記結合テキストベクトルの残りのベクトルをフィルタリングした後、句読点で接続することで、前記集約テキストベクトルを得て、分類器モデルのＳｏｆｔｍａｘによって出力する。さらに、本願は、前記ｗｏｒｄ２ｖｅｃ逆アルゴリズムモジュールを用いて、前記集約テキストベクトルに対して逆回復操作を行うことで、標準テキストを出力し、ここで、前記ｗｏｒｄ２ｖｅｃ逆アルゴリズムモジュールは、数値型のテキストベクトル行列を対応するテキストデータに復元することができる。

本願は、テキスト知能化洗浄装置をさらに提供する。図２を参照すると、本願の一実施例にて提供されるテキスト知能化洗浄装置の内部構造の概略図である。

本実施例において、前記テキスト知能化洗浄装置１は、ＰＣ（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ、パーソナルコンピュータ）であってもよく、又はスマートフォン、タブレットコンピュータ、携帯用コンピュータなどの端末機器であってもよく、サーバーなどであってもよい。当該テキスト知能化洗浄装置１は、少なくとも、メモリ１１と、プロセッサ１２と、通信バス１３と、ネットワークインタフェース１４とを含む。

ここで、メモリ１１は、フラッシュメモリ、ハードディスク、マルチメディアカード、カード型メモリ（例えば、ＳＤメモリ又はＤＸメモリなど）、磁気メモリ、磁気ディスク、光ディスクなどを含む少なくとも１種類の読み取り可能な記憶媒体を含む。メモリ１１は、いくつかの実施例において、テキスト知能化洗浄装置１の内部記憶ユニット、例えば、当該テキスト知能化洗浄装置１のハードディスクであってもよい。メモリ１１は、他の実施例において、テキスト知能化洗浄装置１の外部記憶機器、例えば、テキスト知能化洗浄装置１に備えられたプラグインハードディスク、スマートメモリカード（ＳｍａｒｔＭｅｄｉａ（登録商標）Ｃａｒｄ、ＳＭＣ）、セキュアデジタル（ＳｅｃｕｒｅＤｉｇｉｔａｌ、ＳＤ）カード、フラッシュカード（ＦｌａｓｈＣａｒｄ）などであってもよい。さらに、メモリ１１は、テキスト知能化洗浄装置１の内部記憶ユニットと外部記憶機器の両方を含んでもよい。メモリ１１は、テキスト知能化洗浄装置１にインストールされたアプリケーションソフト及びテキスト知能化洗浄プログラム０１のコードなどの各種データを記憶するために用いられることができるだけでなく、既に出力された、又は出力しようとするデータを一時的に記憶するために用いられることができる。

プロセッサ１２は、いくつかの実施例において、中央演算装置（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ、ＣＰＵ）、コントローラ、マイクロコントローラ、マイクロプロセッサ、又は他のデータ処理チップであってもよく、メモリ１１に記憶されたプログラムコード又は処理データを実行するために用いられ、例えば、テキスト知能化洗浄プログラム０１を実行することなどである。

通信バス１３は、これらのコンポーネントの間の接続通信を実現するために用いられる。

ネットワークインタフェース１４は、選択的に、標準的な有線インタフェース、無線インタフェース（例えばＷＩ－ＦＩインタフェース）を含んでもよく、一般に、当該装置１と他の電子機器との間の通信接続を確立するために用いられる。

選択的に、当該装置１は、ユーザインタフェースをさらに含んでもよく、ユーザインタフェースは、ディスプレイ（Ｄｉｓｐｌａｙ）、キーボード（Ｋｅｙｂｏａｒｄ）などの入力ユニットを含んでもよく、選択的に、ユーザインタフェースは、標準的な有線インタフェース、無線インタフェースをさらに含んでもよい。選択的に、いくつかの実施例において、ディスプレイは、ＬＥＤディスプレイ、液晶ディスプレイ、タッチ液晶ディスプレイ、及びＯＬＥＤ（ＯｒｇａｎｉｃＬｉｇｈｔ－ＥｍｉｔｔｉｎｇＤｉｏｄｅ、有機発光ダイオード）タッチなどであってもよい。ここで、ディスプレイは、テキスト知能化洗浄装置１で処理される情報を表示し、視覚化されたユーザインタフェースを表示するために、適宜、表示画面又は表示ユニットと呼ばれてもよい。

図２は、コンポーネント１１～１４及びテキスト知能化洗浄プログラム０１を有するテキスト知能化洗浄装置１のみを示し、当業者であれば、図２に示す構造は、テキスト知能化洗浄装置１を限定するものではなく、図示のものよりも少ない又は多い部材、又はいくつかの部材の組み合わせ、又は異なる部材の配置を含んでもよいことが理解される。

図２に示される装置１の実施例において、メモリ１１にテキスト知能化洗浄プログラム０１が記憶され、プロセッサ１２がメモリ１１に記憶されたテキスト知能化洗浄プログラム０１を実行する際に、以下のステップを実現する。

ステップ１、テキストセットを取得し、前記テキストセットに対して前処理操作を行い、単語ベクトルテキストを得る。

ステップ２、前記単語ベクトルテキストセットに対して全文行列数値化操作を行い、主体単語ベクトル行列及びテキスト単語ベクトル行列を生成する。

ステップ３、前記主体単語ベクトル行列をＢｉＬＳＴＭモデルに入力して中間テキストベクトルを生成し、前記テキスト単語ベクトル行列を畳み込みニューラルネットワークモデルに入力して目標テキストベクトルを生成する。

ステップ４、前記中間テキストベクトルと前記目標テキストベクトルとを繋ぎ合わせ、結合テキストベクトルを得て、前記結合テキストベクトルを予め構築した意味認識分類器モデルに入力し、前記意味認識分類器モデルのＳｏｆｔｍａｘをカウントすることにより集約テキストベクトルを出力し、前記集約テキストベクトルに対してｗｏｒｄ２ｖｅｃの逆アルゴリズムを用いて逆回復操作を行い、標準テキストを出力する。

好ましくは、他の実施例において、テキスト知能化洗浄プログラムは、１つ又は複数のモジュールに分割されてもよく、１つ又は複数のモジュールがメモリ１１に記憶されて１つ又は複数のプロセッサ（本実施例ではプロセッサ１２）によって実行されて本願を完了させ、本願で言及されるモジュールは、テキスト知能化洗浄装置におけるテキスト知能化洗浄プログラムの実行プロセスを記述するための特定の機能を完了させることができる一連のコンピュータプログラム命令セグメントを指す。

例えば、図３を参照すると、本願のテキスト知能化洗浄装置の一実施例におけるテキスト知能化洗浄プログラムのプログラムモジュールの概略図であり、当該実施例において、前記テキスト知能化洗浄プログラムは、テキスト前処理モジュール１０、単語ベクトル分割モジュール２０、モデル処理モジュール３０、及び標準テキスト生成モジュール４０に分割されてもよく、例示的に、以下のとおりである。

前記テキスト前処理モジュール１０は、テキストセットを取得し、前記テキストセットに対して前処理操作を行い、単語ベクトルテキストセットを得るために用いられる。

前記単語ベクトル分割モジュール２０は、前記単語ベクトルテキストセットに対して全文行列数値化操作を行い、主体単語ベクトル行列及びテキスト単語ベクトル行列を生成するために用いられる。

前記モデル処理モジュール３０は、前記主体単語ベクトル行列をＢｉＬＳＴＭモデルに入力して中間テキストベクトルを生成し、前記テキスト単語ベクトル行列を畳み込みニューラルネットワークモデルに入力して目標テキストベクトルを生成するために用いられる。

前記標準テキスト生成モジュール４０は、前記中間テキストベクトルと前記目標テキストベクトルとを繋ぎ合わせ、結合テキストベクトルを得て、前記結合テキストベクトルを予め構築した意味認識分類器モデルに入力し、集約テキストベクトルを出力し、前記集約テキストベクトルに対してｗｏｒｄ２ｖｅｃの逆アルゴリズムを用いて逆回復操作を行い、標準テキストを出力するために用いられる。

上記のテキスト前処理モジュール１０、単語ベクトル分割モジュール２０、モデル処理モジュール３０、及び標準テキスト生成モジュール４０などのプログラムモジュールが実行される際に実現される機能又は操作ステップは、上記の実施例と実質的に同じであり、ここでは説明を省略する。

また、本願の実施例は、コンピュータ読み取り可能な記憶媒体をさらに提供し、前記コンピュータ読み取り可能な記憶媒体にテキスト知能化洗浄プログラムが記憶され、前記テキスト知能化洗浄プログラムは、
テキストセットを取得し、前記テキストセットに対して前処理操作を行い、単語ベクトルテキストセットを得るステップと、
前記単語ベクトルテキストセットに対して全文行列数値化操作を行い、主体単語ベクトル行列及びテキスト単語ベクトル行列を生成するステップと、
前記主体単語ベクトル行列をＢｉＬＳＴＭモデルに入力して中間テキストベクトルを生成するステップと、
前記テキスト単語ベクトル行列を畳み込みニューラルネットワークモデルに入力して目標テキストベクトルを生成するステップと、
前記中間テキストベクトルと前記目標テキストベクトルとを繋ぎ合わせ、結合テキストベクトルを得て、前記結合テキストベクトルを予め構築した意味認識分類器モデルに入力し、集約テキストベクトルを出力し、前記集約テキストベクトルに対してｗｏｒｄ２ｖｅｃの逆アルゴリズムを用いて逆回復操作を行い、標準テキストを出力するステップと、を実現するために、１つ又は複数のプロセッサによって実行されることができる。

本願のコンピュータ読み取り可能な記憶媒体の具体的な実施形態は、上記のテキスト知能化洗浄装置及び方法の各実施例と基本的に同じであり、ここでは説明を省略する。

なお、上記の本願の実施例の番号は、説明のためのものにすぎず、実施例の優劣を表すものではない。本明細書における用語「含む」、「含有」、又はそれらの任意の他の変形は、非排他的な含有をカバーするように意図され、したがって、一連の要素を含むプロセス、装置、物品、又は方法は、それらの要素を含むだけでなく、明示的に列挙されていない他の要素も含み、又はそのようなプロセス、装置、物品、又は方法に固有の要素も含む。「……を含む」という語句によって定義される要素は、これ以上の制限がない限り、当該要素を含むプロセス、装置、物品、又は方法において、他の同じ要素が存在することを除外しない。

以上の実施形態の説明により、当業者は、上記の実施例の方法が、ソフトウェアに、必要な汎用ハードウェアプラットフォームを加えた方式で実現でき、当然ハードウェアによっても実現することができるが、前者がより好ましい実施形態である場合が多いことを明確に理解することができる。このような理解に基づいて、本願の技術的解決手段の本質又は従来技術に貢献する部分は、ソフトウェア製品の形態で具体化されてもよく、当該コンピュータソフトウェア製品は、上述のような１つの記憶媒体（例えば、ＲＯＭ／ＲＡＭ、磁気ディスク、光ディスク）に記憶され、１台の端末機器（携帯電話、コンピュータ、サーバー、又はネットワーク機器などでもよい）に本願の各実施例に記載の方法を実行させるための複数の命令を含む。

以上は本願の好ましい実施例にすぎず、それによって本願の特許範囲を制限するものではなく、本願の明細書及び図面内容を利用して行われる等価構造又は等価フロー変換、或いは直接的又は間接的に他の関連技術分野に応用される場合、いずれも同様に本願の特許請求範囲に含まれる。

Claims

テキスト知能化洗浄方法であって、
テキストセットを取得し、前記テキストセットに対して前処理操作を行い、単語ベクトルテキストセットを得るステップと、
前記単語ベクトルテキストセットに対して全文行列数値化操作を行い、主体単語ベクトル行列及びテキスト単語ベクトル行列を生成するステップと、
前記主体単語ベクトル行列をＢｉＬＳＴＭモデルに入力して中間テキストベクトルを生成するステップと、
前記テキスト単語ベクトル行列を畳み込みニューラルネットワークモデルに入力して目標テキストベクトルを生成するステップと、
前記中間テキストベクトルと前記目標テキストベクトルとを繋ぎ合わせ、結合テキストベクトルを得て、前記結合テキストベクトルを予め構築した意味認識分類器モデルに入力し、集約テキストベクトルを出力し、前記集約テキストベクトルに対してｗｏｒｄ２ｖｅｃの逆アルゴリズムを用いて逆回復操作を行い、標準テキストを出力するステップと、を含むことを特徴とするテキスト知能化洗浄方法。
テキストセットに対して前処理操作を行い、単語ベクトルテキストセットを得る前記ステップは、
ｓｐｌｉｔ文字列により前記テキストセットに対してテキスト分割操作を行い、単位語句を得るステップと、
ｗｏｒｄ２ｖｅｃモデルを利用して前記単位語句セットを前記単語ベクトルテキストセットに変換するステップと、を含むことを特徴とする請求項１に記載のテキスト知能化洗浄方法。
ｗｏｒｄ２ｖｅｃモデルを利用して前記単位語句セットを前記単語ベクトルテキストセットに変換する前記ステップは、
前記単位語句セットをワンホット形式で量子化して語彙リストベクトルを得て、前記語彙リストベクトルを前記Ｗｏｒｄ２ｖｅｃモデルに入力し、前記語彙リストベクトルを前記ｗｏｒｄ２ｖｅｃモデルにおける隠れ層を用いて圧縮処理して低次元ベクトルを形成し、前記単語ベクトルテキストを得るステップを含むことを特徴とする請求項２に記載のテキスト知能化洗浄方法。
前記主体単語ベクトル行列をＢｉＬＳＴＭモデルに入力して中間テキストベクトルを生成する前記ステップは、
前記ＢｉＬＳＴＭモデルにおけるＬＳＴＭ－ｔａｒｇｅｔのエンコーダにより前記主体単語ベクトル行列をエンコードし、前向き隠れ状態系列を得るステップと、
前記ＢｉＬＳＴＭモデルにおけるＬＳＴＭ－ｄｅｓｃｒｉのエンコーダにより前記主体単語ベクトル行列をエンコードし、後向き隠れ状態系列を得るステップと、
前記前向き隠れ状態系列と前記後向き隠れ状態系列とを繋ぎ合わせ、主題単語ベクトルを得て、前記主題単語ベクトルをまとめて前記中間テキストベクトルを得るステップと、を含むことを特徴とする請求項１に記載のテキスト知能化洗浄方法。
前記テキスト単語ベクトル行列を畳み込みニューラルネットワークモデルに入力して目標テキストベクトルを生成する前記ステップは、
前記畳み込みニューラルネットワークの所定の畳み込みカーネルサイズにより前記テキスト単語ベクトル行列に対して畳み込み操作を行い、特徴値を得るステップと、
前記特徴値をまとめて操作を行い、畳み込み特徴行列を得て、前記畳み込み特徴行列と前記中間テキストベクトルを同じ次元空間にマッピングし、前記畳み込み特徴行列と前記中間テキストベクトルのコサイン類似度を得るステップと、
前記コサイン類似度の注意力重みを算出し、前記注意力重みをまとめて注意力重み行列を得るステップと、
前記畳み込み特徴行列中の特徴値と前記注意力重み行列に対応する注意力重みを重み付けして前記目標テキストベクトル中の特徴点を得て、前記目標テキストベクトル中の特徴点をまとめて目標テキストベクトルを得るステップと、を含むことを特徴とする請求項１に記載のテキスト知能化洗浄方法。
前記テキスト単語ベクトル行列を畳み込みニューラルネットワークモデルに入力して目標テキストベクトルを生成する前記ステップは、
前記畳み込みニューラルネットワークの所定の畳み込みカーネルサイズにより前記テキスト単語ベクトル行列に対して畳み込み操作を行い、特徴値を得るステップと、
前記特徴値をまとめて操作を行い、畳み込み特徴行列を得て、前記畳み込み特徴行列と前記中間テキストベクトルを同じ次元空間にマッピングし、前記畳み込み特徴行列と前記中間テキストベクトルのコサイン類似度を得るステップと、
前記コサイン類似度の注意力重みを算出し、前記注意力重みをまとめて注意力重み行列を得るステップと、
前記畳み込み特徴行列中の特徴値と前記注意力重み行列に対応する注意力重みを重み付けして前記目標テキストベクトル中の特徴点を得て、前記目標テキストベクトル中の特徴点をまとめて目標テキストベクトルを得るステップと、を含むことを特徴とする請求項２に記載のテキスト知能化洗浄方法。
前記テキスト単語ベクトル行列を畳み込みニューラルネットワークモデルに入力して目標テキストベクトルを生成する前記ステップは、
前記畳み込みニューラルネットワークの所定の畳み込みカーネルサイズにより前記テキスト単語ベクトル行列に対して畳み込み操作を行い、特徴値を得るステップと、
前記特徴値をまとめて操作を行い、畳み込み特徴行列を得て、前記畳み込み特徴行列と前記中間テキストベクトルを同じ次元空間にマッピングし、前記畳み込み特徴行列と前記中間テキストベクトルのコサイン類似度を得るステップと、
前記コサイン類似度の注意力重みを算出し、前記注意力重みをまとめて注意力重み行列を得るステップと、
前記畳み込み特徴行列中の特徴値と前記注意力重み行列に対応する注意力重みを重み付けして前記目標テキストベクトル中の特徴点を得て、前記目標テキストベクトル中の特徴点をまとめて目標テキストベクトルを得るステップと、を含むことを特徴とする請求項３に記載のテキスト知能化洗浄方法。
前記テキスト単語ベクトル行列を畳み込みニューラルネットワークモデルに入力して目標テキストベクトルを生成する前記ステップは、
前記畳み込みニューラルネットワークの所定の畳み込みカーネルサイズにより前記テキスト単語ベクトル行列に対して畳み込み操作を行い、特徴値を得るステップと、
前記特徴値をまとめて操作を行い、畳み込み特徴行列を得て、前記畳み込み特徴行列と前記中間テキストベクトルを同じ次元空間にマッピングし、前記畳み込み特徴行列と前記中間テキストベクトルのコサイン類似度を得るステップと、
前記コサイン類似度の注意力重みを算出し、前記注意力重みをまとめて注意力重み行列を得るステップと、
前記畳み込み特徴行列中の特徴値と前記注意力重み行列に対応する注意力重みを重み付けして前記目標テキストベクトル中の特徴点を得て、前記目標テキストベクトル中の特徴点をまとめて目標テキストベクトルを得るステップと、を含むことを特徴とする請求項４に記載のテキスト知能化洗浄方法。
テキスト知能化洗浄装置であって、メモリとプロセッサとを含み、前記メモリに前記プロセッサ上で実行可能なテキスト知能化洗浄プログラムが記憶され、前記テキスト知能化洗浄プログラムは、前記プロセッサによって実行されると、
テキストセットを取得し、前記テキストセットに対して前処理操作を行い、単語ベクトルテキストセットを得るステップと、
前記単語ベクトルテキストセットに対して全文行列数値化操作を行い、主体単語ベクトル行列及びテキスト単語ベクトル行列を生成するステップと、
前記主体単語ベクトル行列をＢｉＬＳＴＭモデルに入力して中間テキストベクトルを生成するステップと、
前記テキスト単語ベクトル行列を畳み込みニューラルネットワークモデルに入力して目標テキストベクトルを生成するステップと、
前記中間テキストベクトルと前記目標テキストベクトルとを繋ぎ合わせ、結合テキストベクトルを得て、前記結合テキストベクトルを予め構築した意味認識分類器モデルに入力し、集約テキストベクトルを出力し、前記集約テキストベクトルに対してｗｏｒｄ２ｖｅｃの逆アルゴリズムを用いて逆回復操作を行い、標準テキストを出力するステップと、を実現することを特徴とするテキスト知能化洗浄装置。
テキストセットに対して前処理操作を行い、単語ベクトルテキストセットを得る前記ステップは、
ｓｐｌｉｔ文字列により前記テキストセットに対してテキスト分割操作を行い、単位語句を得るステップと、
ｗｏｒｄ２ｖｅｃモデルを利用して前記単位語句セットを前記単語ベクトルテキストセットに変換するステップと、を含むことを特徴とする請求項９に記載のテキスト知能化洗浄装置。
ｗｏｒｄ２ｖｅｃモデルを利用して前記単位語句セットを前記単語ベクトルテキストセットに変換する前記ステップは、
前記単位語句セットをワンホット形式で量子化して語彙リストベクトルを得て、前記語彙リストベクトルを前記Ｗｏｒｄ２ｖｅｃモデルに入力し、前記語彙リストベクトルを前記ｗｏｒｄ２ｖｅｃモデルにおける隠れ層を用いて圧縮処理して低次元ベクトルを形成し、前記単語ベクトルテキストを得るステップを含むことを特徴とする請求項１０に記載のテキスト知能化洗浄装置。
前記主体単語ベクトル行列をＢｉＬＳＴＭモデルに入力して中間テキストベクトルを生成する前記ステップは、
前記ＢｉＬＳＴＭモデルにおけるＬＳＴＭ－ｔａｒｇｅｔのエンコーダにより前記主体単語ベクトル行列をエンコードし、前向き隠れ状態系列を得るステップと、
前記ＢｉＬＳＴＭモデルにおけるＬＳＴＭ－ｄｅｓｃｒｉのエンコーダにより前記主体単語ベクトル行列をエンコードし、後向き隠れ状態系列を得るステップと、
前記前向き隠れ状態系列と前記後向き隠れ状態系列とを繋ぎ合わせ、主題単語ベクトルを得て、前記主題単語ベクトルをまとめて前記中間テキストベクトルを得るステップと、を含むことを特徴とする請求項９に記載のテキスト知能化洗浄装置。
前記テキスト単語ベクトル行列を畳み込みニューラルネットワークモデルに入力して目標テキストベクトルを生成する前記ステップは、
前記畳み込みニューラルネットワークの所定の畳み込みカーネルサイズにより前記テキスト単語ベクトル行列に対して畳み込み操作を行い、特徴値を得るステップと、
前記特徴値をまとめて操作を行い、畳み込み特徴行列を得て、前記畳み込み特徴行列と前記中間テキストベクトルを同じ次元空間にマッピングし、前記畳み込み特徴行列と前記中間テキストベクトルのコサイン類似度を得るステップと、
前記コサイン類似度の注意力重みを算出し、前記注意力重みをまとめて注意力重み行列を得るステップと、
前記畳み込み特徴行列中の特徴値と前記注意力重み行列に対応する注意力重みを重み付けして前記目標テキストベクトル中の特徴点を得て、前記目標テキストベクトル中の特徴点をまとめて目標テキストベクトルを得るステップと、を含むことを特徴とする請求項９に記載のテキスト知能化洗浄装置。
前記テキスト単語ベクトル行列を畳み込みニューラルネットワークモデルに入力して目標テキストベクトルを生成する前記ステップは、
前記畳み込みニューラルネットワークの所定の畳み込みカーネルサイズにより前記テキスト単語ベクトル行列に対して畳み込み操作を行い、特徴値を得るステップと、
前記特徴値をまとめて操作を行い、畳み込み特徴行列を得て、前記畳み込み特徴行列と前記中間テキストベクトルを同じ次元空間にマッピングし、前記畳み込み特徴行列と前記中間テキストベクトルのコサイン類似度を得るステップと、
前記コサイン類似度の注意力重みを算出し、前記注意力重みをまとめて注意力重み行列を得るステップと、
前記畳み込み特徴行列中の特徴値と前記注意力重み行列に対応する注意力重みを重み付けして前記目標テキストベクトル中の特徴点を得て、前記目標テキストベクトル中の特徴点をまとめて目標テキストベクトルを得るステップと、を含むことを特徴とする請求項１０に記載のテキスト知能化洗浄装置。
前記テキスト単語ベクトル行列を畳み込みニューラルネットワークモデルに入力して目標テキストベクトルを生成する前記ステップは、
前記畳み込みニューラルネットワークの所定の畳み込みカーネルサイズにより前記テキスト単語ベクトル行列に対して畳み込み操作を行い、特徴値を得るステップと、
前記特徴値をまとめて操作を行い、畳み込み特徴行列を得て、前記畳み込み特徴行列と前記中間テキストベクトルを同じ次元空間にマッピングし、前記畳み込み特徴行列と前記中間テキストベクトルのコサイン類似度を得るステップと、
前記コサイン類似度の注意力重みを算出し、前記注意力重みをまとめて注意力重み行列を得るステップと、
前記畳み込み特徴行列中の特徴値と前記注意力重み行列に対応する注意力重みを重み付けして前記目標テキストベクトル中の特徴点を得て、前記目標テキストベクトル中の特徴点をまとめて目標テキストベクトルを得るステップと、を含むことを特徴とする請求項１１に記載のテキスト知能化洗浄装置。
前記テキスト単語ベクトル行列を畳み込みニューラルネットワークモデルに入力して目標テキストベクトルを生成する前記ステップは、
前記畳み込みニューラルネットワークの所定の畳み込みカーネルサイズにより前記テキスト単語ベクトル行列に対して畳み込み操作を行い、特徴値を得るステップと、
前記特徴値をまとめて操作を行い、畳み込み特徴行列を得て、前記畳み込み特徴行列と前記中間テキストベクトルを同じ次元空間にマッピングし、前記畳み込み特徴行列と前記中間テキストベクトルのコサイン類似度を得るステップと、
前記コサイン類似度の注意力重みを算出し、前記注意力重みをまとめて注意力重み行列を得るステップと、
前記畳み込み特徴行列中の特徴値と前記注意力重み行列に対応する注意力重みを重み付けして前記目標テキストベクトル中の特徴点を得て、前記目標テキストベクトル中の特徴点をまとめて目標テキストベクトルを得るステップと、を含むことを特徴とする請求項１２に記載のテキスト知能化洗浄装置。
コンピュータ読み取り可能な記憶媒体であって、前記コンピュータ読み取り可能な記憶媒体にテキスト知能化洗浄プログラムが記憶され、前記テキスト知能化洗浄プログラムは、
テキストセットを取得し、前記テキストセットに対して前処理操作を行い、単語ベクトルテキストセットを得るステップと、
前記単語ベクトルテキストセットに対して全文行列数値化操作を行い、主体単語ベクトル行列及びテキスト単語ベクトル行列を生成するステップと、
前記主体単語ベクトル行列をＢｉＬＳＴＭモデルに入力して中間テキストベクトルを生成するステップと、
前記テキスト単語ベクトル行列を畳み込みニューラルネットワークモデルに入力して目標テキストベクトルを生成するステップと、
前記中間テキストベクトルと前記目標テキストベクトルとを繋ぎ合わせ、結合テキストベクトルを得て、前記結合テキストベクトルを予め構築した意味認識分類器モデルに入力し、集約テキストベクトルを出力し、前記集約テキストベクトルに対してｗｏｒｄ２ｖｅｃの逆アルゴリズムを用いて逆回復操作を行い、標準テキストを出力するステップと、を実現するために、１つ又は複数のプロセッサによって実行されることができることを特徴とするコンピュータ読み取り可能な記憶媒体。
テキストセットに対して前処理操作を行い、単語ベクトルテキストセットを得る前記ステップは、
ｓｐｌｉｔ文字列により前記テキストセットに対してテキスト分割操作を行い、単位語句を得るステップと、
ｗｏｒｄ２ｖｅｃモデルを利用して前記単位語句セットを前記単語ベクトルテキストセットに変換するステップと、を含むことを特徴とする請求項１７に記載のコンピュータ読み取り可能な記憶媒体。
ｗｏｒｄ２ｖｅｃモデルを利用して前記単位語句セットを前記単語ベクトルテキストセットに変換する前記ステップは、
前記単位語句セットをワンホット形式で量子化して語彙リストベクトルを得て、前記語彙リストベクトルを前記Ｗｏｒｄ２ｖｅｃモデルに入力し、前記語彙リストベクトルを前記ｗｏｒｄ２ｖｅｃモデルにおける隠れ層を用いて圧縮処理して低次元ベクトルを形成し、前記単語ベクトルテキストを得るステップを含むことを特徴とする請求項１８に記載のコンピュータ読み取り可能な記憶媒体。
前記主体単語ベクトル行列をＢｉＬＳＴＭモデルに入力して中間テキストベクトルを生成する前記ステップは、
前記ＢｉＬＳＴＭモデルにおけるＬＳＴＭ－ｔａｒｇｅｔのエンコーダにより前記主体単語ベクトル行列をエンコードし、前向き隠れ状態系列を得るステップと、
前記ＢｉＬＳＴＭモデルにおけるＬＳＴＭ－ｄｅｓｃｒｉのエンコーダにより前記主体単語ベクトル行列をエンコードし、後向き隠れ状態系列を得るステップと、
前記前向き隠れ状態系列と前記後向き隠れ状態系列とを繋ぎ合わせ、主題単語ベクトルを得て、前記主題単語ベクトルをまとめて前記中間テキストベクトルを得るステップと、を含むことを特徴とする請求項１７に記載のコンピュータ読み取り可能な記憶媒体。