JP7286810B2 - テキスト知能化洗浄方法、装置及びコンピュータ読み取り可能な記憶媒体 - Google Patents

テキスト知能化洗浄方法、装置及びコンピュータ読み取り可能な記憶媒体 Download PDF

Info

Publication number
JP7286810B2
JP7286810B2 JP2021569240A JP2021569240A JP7286810B2 JP 7286810 B2 JP7286810 B2 JP 7286810B2 JP 2021569240 A JP2021569240 A JP 2021569240A JP 2021569240 A JP2021569240 A JP 2021569240A JP 7286810 B2 JP7286810 B2 JP 7286810B2
Authority
JP
Japan
Prior art keywords
text
vector
matrix
word vector
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021569240A
Other languages
English (en)
Other versions
JP2022534375A (ja
Inventor
子欧 鄭
偉 汪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Publication of JP2022534375A publication Critical patent/JP2022534375A/ja
Application granted granted Critical
Publication of JP7286810B2 publication Critical patent/JP7286810B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本願は、パリ条約に基づき、2019年07月03日に提出された、出願番号CN 201910601253.7、名称「テキスト知能化洗浄方法、装置及びコンピュータ読み取り可能な記憶媒体」の中国特許出願の優先権を主張し、当該中国特許出願の内容の全てが参照の方式によって本願に組み込まれる。
本願は、人工知能技術の分野に関し、特に、ハイブリッドネットワークモデルに基づくテキストの不自然な改行問題に対するテキスト知能化洗浄方法、装置及びコンピュータ読み取り可能な記憶媒体に関するものである。
異なるチャネルから得られたテキスト(例えば、html抜粋文字、pdf抜粋文字など)の組み合わせからなる文書は、コピー、貼り付け後の異なるフォーマットの変換による不自然な改行がある。これらの不自然な改行は、意味に関係がなく、自然段落とは異なる。後続の展示、又は意味解析のいずれかに干渉を来す可能性がある。ある特定の由来の改行発生原因を人工で見て規則をまとめて取り除くのが通常である。しかし、このような方法は移植可能性が悪く、柔軟性が十分でなく、人工的なまとめによるコストが高く、また、正確性が低い。
本願は、異なるフォーマットのテキストのコピー、貼り付けからなる結合テキストの不自然な改行問題を処理し、意味が完全で、階層がはっきりした標準テキストをユーザに呈することを主な目的とする、テキスト知能化洗浄方法、装置及びコンピュータ読み取り可能な記憶媒体を提供する。
上記目的を達成するために、本願にて提供されるテキスト知能化洗浄方法は、
テキストセットを取得し、前記テキストセットに対して前処理操作を行い、単語ベクトルテキストセットを得るステップと、
前記単語ベクトルテキストセットに対して全文行列数値化操作を行い、主体単語ベクトル行列及びテキスト単語ベクトル行列を生成するステップと、
前記主体単語ベクトル行列をBiLSTMモデルに入力して中間テキストベクトルを生成するステップと、
前記テキスト単語ベクトル行列を畳み込みニューラルネットワークモデルに入力して目標テキストベクトルを生成するステップと、
前記中間テキストベクトルと前記目標テキストベクトルとを繋ぎ合わせ、結合テキストベクトルを得て、前記結合テキストベクトルを予め構築した意味認識分類器モデルに入力し、集約テキストベクトルを出力し、前記集約テキストベクトルに対してword2vecの逆アルゴリズムを用いて逆回復操作を行い、標準テキストを出力するステップと、を含む。
また、上記目的を達成するために、本願は、テキスト知能化洗浄装置をさらに提供し、当該装置は、メモリとプロセッサとを含み、前記メモリに前記プロセッサ上で実行可能なテキスト知能化洗浄プログラムが記憶され、前記テキスト知能化洗浄プログラムは、前記プロセッサによって実行されると、
テキストセットを取得し、前記テキストセットに対して前処理操作を行い、単語ベクトルテキストセットを得るステップと、
前記単語ベクトルテキストセットに対して全文行列数値化操作を行い、主体単語ベクトル行列及びテキスト単語ベクトル行列を生成するステップと、
前記主体単語ベクトル行列をBiLSTMモデルに入力して中間テキストベクトルを生成するステップと、
前記テキスト単語ベクトル行列を畳み込みニューラルネットワークモデルに入力して目標テキストベクトルを生成するステップと、
前記中間テキストベクトルと前記目標テキストベクトルとを繋ぎ合わせ、結合テキストベクトルを得て、前記結合テキストベクトルを予め構築した意味認識分類器モデルに入力し、集約テキストベクトルを出力し、前記集約テキストベクトルに対してword2vecの逆アルゴリズムを用いて逆回復操作を行い、標準テキストを出力するステップと、を実現する。
また、上記目的を達成するために、本願は、コンピュータ読み取り可能な記憶媒体をさらに提供し、前記コンピュータ読み取り可能な記憶媒体にテキスト知能化洗浄プログラムが記憶され、前記テキスト知能化洗浄プログラムは、上述したテキスト知能化洗浄方法のステップを実現するために、1つ又は複数のプロセッサによって実行されることができる。
本願にて提供されるテキスト知能化洗浄方法、装置及びコンピュータ読み取り可能な記憶媒体は、テキスト洗浄を行う際に、取得されたテキストセットに対して解析処理を行い及びBiLSTM-CNNハイブリッドモデルを結び付けて、前記テキスト結合テキストベクトルを得て、前記結合テキストベクトルを予め構築した意味認識分類器モデルに入力し、集約テキストベクトルを出力し、前記集約テキストベクトルを回復することで、標準テキストを得ることができる。
本願の一実施例にて提供されるテキスト知能化洗浄方法のフローチャートの概略図である。 本願の一実施例にて提供されるテキスト知能化洗浄装置の内部構造の概略図である。 本願の一実施例にて提供されるテキスト知能化洗浄装置におけるテキスト知能化洗浄プログラムのモジュールの概略図である。 本願の目的の実現、機能的特徴及び利点は、実施例を結び付けて、添付図面を参照してさらに説明する。
なお、本明細書に記載の具体的な実施例は、本願を説明するためのものにすぎず、本願を限定するものではないことを理解されたい。
本願は、テキスト知能化洗浄方法を提供する。図1を参照すると、本願の一実施例にて提供されるテキスト知能化洗浄方法のフローチャートの概略図である。当該方法は、ソフトウェア及び/又はハードウェアによって実現され得る装置によって実行され得る。
本実施例において、テキスト知能化洗浄方法は、以下を含む。
S1、テキストセットを取得し、前記テキストセットに対して前処理操作を行い、単語ベクトルテキストを得る。
本願の好ましい実施例において、前記テキストセットは、ネットワークでキーワード検索を行うことにより取得される方式1、北京大学の中国言語学センターのコーパスからダウンロードにより取得される方式2という2つの方式で取得される。
本願の前記前処理操作は、split文字列により前記テキストセットに対してテキスト分割操作を行い、単位語句を得るステップと、word2vecモデルを利用して前記単位語句セットを前記単語ベクトルテキストセットに変換するステップと、を含む。
詳しくは、前記split文字列分割が前記テキストセットに対してテキスト分割操作を行うことは、単一の記号を区切り文字とし、前記区切り文字が「|」、「*」、「^」などであり得、前記区切り文字に基づいて前記テキストセットを単位語句に分割して単位語句セットを得ることである。
前記単位語句セットを前記単語ベクトルテキストセットにword2vecモデルによって変換する前記変換操作は、前記単位語句セットをワンホット(one-hot)形式で量子化して語彙リストベクトルを得て、前記語彙リストベクトルを前記Word2vecモデルに入力し、前記語彙リストベクトルを前記word2vecモデルにおける隠れ層を用いて圧縮処理して低次元ベクトルを形成し、前記低次元ベクトルが即ち単語ベクトルテキストであることである。
前記one-hotは、世界中の全ての単語を1つのベクトル中の要素に対応付けることである。例えば、ある単語が出現すると、前記単語に対応する位置を1、それ以外の位置を0と設定することで、前記単語セットにおける単語をいずれもベクトル表現に変換して語彙リストベクトルを形成することができる。
S2、前記単語ベクトルテキストセットに対して全文行列数値化操作を行い、主体単語ベクトル行列及びテキスト単語ベクトル行列を生成する。
本願の好ましい実施例は、前記単語ベクトルテキストに対して全文行列数値化操作を行うことで、前記単語ベクトルテキストセットの解析の定性化から定量化への遷移を実現する。ここで、前記全文行列数値化操作は、具体的に、所定の前記単語ベクトルテキストにおける語彙量をnで表し、単語ベクトル次元をdで表し、単語ベクトル次元は品詞特徴、文字特徴、意味立場、感情的色彩などを含むステップと、単語ベクトル積層により前記所定の単語ベクトルテキストを全体次元n*dの単語ベクトル数値行列Xに変換するステップと、自然言語処理と中国語計算会議説明のコーパス(nlpcc)により前記単語ベクトル数値行列Xを判読し、前記所定の単語ベクトルテキストにおける修飾特徴を有するベクトルを抽出して、次元n*dの前記テキスト単語ベクトル行列を生成するステップと、前記所定のテキストにおける非修飾特徴を有するベクトルを残して、次元n*dの主体単語ベクトル行列を生成するステップと、を含む。
S3、前記主体単語ベクトル行列をBiLSTMモデルに入力して中間テキストベクトルを生成し、前記テキスト単語ベクトル行列を畳み込みニューラルネットワークモデルに入力して目標テキストベクトルを生成する。
本願に記載のBiLSTMモデルは、LSTM-target及びLSTM-descriという2つの部分を含む。本願は、前記LSTM-targetのエンコーダにより前記n*d主体単語ベクトル行列をエンコードし、前向き隠れ状態系列hr={w1(a),w2(a),w3(a),…,wn(a)}を得て、前記LSTM-descriのエンコーダにより前記n*d主体単語ベクトル行列をエンコードし、後向き隠れ状態系列hl={w1(b),w2(b),w3(b),…,wn(b)}を得る。hrとhlとを繋ぎ合わせて操作して、主題単語ベクトルを得て、前記主題単語ベクトルをまとめて前記中間テキストベクトルを得る。前記繋ぎ合わせ操作の計算式は、以下のとおりである。
Figure 0007286810000001
ここで、前記wk’は、主題単語ベクトルであり、wk(a)は、前向きkの隠れ状態系列であり、wk(b)は、後向きkの隠れ状態系列である。
さらに、本願の好ましい実施例は、前記次元n*dのテキスト単語ベクトル行列を前記畳み込みニューラルネットワークモデル(Convolutional Neural Networks、CNN)に入力し、前記畳み込みニューラルネットワークの所定の畳み込みカーネルサイズw*dにより前記テキスト単語ベクトル行列に対して畳み込み操作を行い、特徴値gを得る。ここで、前記特徴値gの計算方法は以下のとおりである。
Figure 0007286810000002
Figure 0007286810000003
さらに、本願は、前記特徴値をまとめて操作を行い、畳み込み特徴行列S=[g,g,…g,g]を得て、前記gは、具体的な一位置の畳み込みカーネルについて抽出された特徴を表す。
Figure 0007286810000004
S4、前記中間テキストベクトルと前記目標テキストベクトルとを繋ぎ合わせ、結合テキストベクトルを得て、前記結合テキストベクトルを予め構築した意味認識分類器モデルに入力し、前記意味認識分類器モデルのSoftmaxをカウントすることにより集約テキストベクトルを出力し、前記集約テキストベクトルに対してword2vecの逆アルゴリズムを用いて逆回復操作を行い、標準テキストを出力する。
本願の好ましい実施例において、前記繋ぎ合わせ操作は、前記目標テキストベクトルと前記中間テキストベクトルとを首尾接続操作し、結合テキストベクトルを生成することである。さらに、前記意味認識分類モデルは分類器モデルを含み、前記結合テキストベクトルを分類器モデルに入力し、前記結合テキストベクトルに前記分類器モデルによって集約操作を行い、集約テキストベクトルを得る。前記集約操作は、前記結合テキストベクトルの次元属性が近く且つ意味的に連続なベクトルをフィルタリングし、前記結合テキストベクトルの残りのベクトルをフィルタリングした後、句読点で接続することで、前記集約テキストベクトルを得て、分類器モデルのSoftmaxによって出力する。さらに、本願は、前記word2vec逆アルゴリズムモジュールを用いて、前記集約テキストベクトルに対して逆回復操作を行うことで、標準テキストを出力し、ここで、前記word2vec逆アルゴリズムモジュールは、数値型のテキストベクトル行列を対応するテキストデータに復元することができる。
本願は、テキスト知能化洗浄装置をさらに提供する。図2を参照すると、本願の一実施例にて提供されるテキスト知能化洗浄装置の内部構造の概略図である。
本実施例において、前記テキスト知能化洗浄装置1は、PC(Personal Computer、パーソナルコンピュータ)であってもよく、又はスマートフォン、タブレットコンピュータ、携帯用コンピュータなどの端末機器であってもよく、サーバーなどであってもよい。当該テキスト知能化洗浄装置1は、少なくとも、メモリ11と、プロセッサ12と、通信バス13と、ネットワークインタフェース14とを含む。
ここで、メモリ11は、フラッシュメモリ、ハードディスク、マルチメディアカード、カード型メモリ(例えば、SDメモリ又はDXメモリなど)、磁気メモリ、磁気ディスク、光ディスクなどを含む少なくとも1種類の読み取り可能な記憶媒体を含む。メモリ11は、いくつかの実施例において、テキスト知能化洗浄装置1の内部記憶ユニット、例えば、当該テキスト知能化洗浄装置1のハードディスクであってもよい。メモリ11は、他の実施例において、テキスト知能化洗浄装置1の外部記憶機器、例えば、テキスト知能化洗浄装置1に備えられたプラグインハードディスク、スマートメモリカード(Smart Media(登録商標) Card、SMC)、セキュアデジタル(Secure Digital、SD)カード、フラッシュカード(Flash Card)などであってもよい。さらに、メモリ11は、テキスト知能化洗浄装置1の内部記憶ユニットと外部記憶機器の両方を含んでもよい。メモリ11は、テキスト知能化洗浄装置1にインストールされたアプリケーションソフト及びテキスト知能化洗浄プログラム01のコードなどの各種データを記憶するために用いられることができるだけでなく、既に出力された、又は出力しようとするデータを一時的に記憶するために用いられることができる。
プロセッサ12は、いくつかの実施例において、中央演算装置(Central Processing Unit、CPU)、コントローラ、マイクロコントローラ、マイクロプロセッサ、又は他のデータ処理チップであってもよく、メモリ11に記憶されたプログラムコード又は処理データを実行するために用いられ、例えば、テキスト知能化洗浄プログラム01を実行することなどである。
通信バス13は、これらのコンポーネントの間の接続通信を実現するために用いられる。
ネットワークインタフェース14は、選択的に、標準的な有線インタフェース、無線インタフェース(例えばWI-FIインタフェース)を含んでもよく、一般に、当該装置1と他の電子機器との間の通信接続を確立するために用いられる。
選択的に、当該装置1は、ユーザインタフェースをさらに含んでもよく、ユーザインタフェースは、ディスプレイ(Display)、キーボード(Keyboard)などの入力ユニットを含んでもよく、選択的に、ユーザインタフェースは、標準的な有線インタフェース、無線インタフェースをさらに含んでもよい。選択的に、いくつかの実施例において、ディスプレイは、LEDディスプレイ、液晶ディスプレイ、タッチ液晶ディスプレイ、及びOLED(Organic Light-Emitting Diode、有機発光ダイオード)タッチなどであってもよい。ここで、ディスプレイは、テキスト知能化洗浄装置1で処理される情報を表示し、視覚化されたユーザインタフェースを表示するために、適宜、表示画面又は表示ユニットと呼ばれてもよい。
図2は、コンポーネント11~14及びテキスト知能化洗浄プログラム01を有するテキスト知能化洗浄装置1のみを示し、当業者であれば、図2に示す構造は、テキスト知能化洗浄装置1を限定するものではなく、図示のものよりも少ない又は多い部材、又はいくつかの部材の組み合わせ、又は異なる部材の配置を含んでもよいことが理解される。
図2に示される装置1の実施例において、メモリ11にテキスト知能化洗浄プログラム01が記憶され、プロセッサ12がメモリ11に記憶されたテキスト知能化洗浄プログラム01を実行する際に、以下のステップを実現する。
ステップ1、テキストセットを取得し、前記テキストセットに対して前処理操作を行い、単語ベクトルテキストを得る。
本願の好ましい実施例において、前記テキストセットは、ネットワークでキーワード検索を行うことにより取得される方式1、北京大学の中国言語学センターのコーパスからダウンロードにより取得される方式2という2つの方式で取得される。
本願の前記前処理操作は、split文字列により前記テキストセットに対してテキスト分割操作を行い、単位語句を得るステップと、word2vecモデルを利用して前記単位語句セットを前記単語ベクトルテキストセットに変換するステップと、を含む。
詳しくは、前記split文字列分割が前記テキストセットに対してテキスト分割操作を行うことは、単一の記号を区切り文字とし、前記区切り文字が「|」、「*」、「^」などであり得、前記区切り文字に基づいて前記テキストセットを単位語句に分割して単位語句セットを得ることである。
前記単位語句セットを前記単語ベクトルテキストセットにword2vecモデルによって変換する前記変換操作は、前記単位語句セットをワンホット(one-hot)形式で量子化して語彙リストベクトルを得て、前記語彙リストベクトルを前記Word2vecモデルに入力し、前記語彙リストベクトルを前記word2vecモデルにおける隠れ層を用いて圧縮処理して低次元ベクトルを形成し、前記低次元ベクトルが即ち単語ベクトルテキストであることである。
前記one-hotは、世界中の全ての単語を1つのベクトル中の要素に対応付けることである。例えば、ある単語が出現すると、前記単語に対応する位置を1、それ以外の位置を0と設定することで、前記単語セットにおける単語をいずれもベクトル表現に変換して語彙リストベクトルを形成することができる。
ステップ2、前記単語ベクトルテキストセットに対して全文行列数値化操作を行い、主体単語ベクトル行列及びテキスト単語ベクトル行列を生成する。
本願の好ましい実施例は、前記単語ベクトルテキストに対して全文行列数値化操作を行うことで、前記単語ベクトルテキストセットの解析の定性化から定量化への遷移を実現する。ここで、前記全文行列数値化操作は、具体的に、所定の前記単語ベクトルテキストにおける語彙量をnで表し、単語ベクトル次元をdで表し、単語ベクトル次元は品詞特徴、文字特徴、意味立場、感情的色彩などを含むステップと、単語ベクトル積層により前記所定の単語ベクトルテキストを全体次元n*dの単語ベクトル数値行列Xに変換するステップと、自然言語処理と中国語計算会議説明のコーパス(nlpcc)により前記単語ベクトル数値行列Xを判読し、前記所定の単語ベクトルテキストにおける修飾特徴を有するベクトルを抽出して、次元n*dの前記テキスト単語ベクトル行列を生成するステップと、前記所定のテキストにおける非修飾特徴を有するベクトルを残して、次元n*dの主体単語ベクトル行列を生成するステップと、を含む。
ステップ3、前記主体単語ベクトル行列をBiLSTMモデルに入力して中間テキストベクトルを生成し、前記テキスト単語ベクトル行列を畳み込みニューラルネットワークモデルに入力して目標テキストベクトルを生成する。
本願に記載のBiLSTMモデルは、LSTM-target及びLSTM-descriという2つの部分を含む。本願は、前記LSTM-targetのエンコーダにより前記n*d主体単語ベクトル行列をエンコードし、前向き隠れ状態系列hr={w1(a),w2(a),w3(a),…,wn(a)}を得て、前記LSTM-descriのエンコーダにより前記n*d主体単語ベクトル行列をエンコードし、後向き隠れ状態系列hl={w1(b),w2(b),w3(b),…,wn(b)}を得る。hrとhlとを繋ぎ合わせて操作して、主題単語ベクトルを得て、前記主題単語ベクトルをまとめて前記中間テキストベクトルを得る。前記繋ぎ合わせ操作の計算式は、以下のとおりである。
Figure 0007286810000005
ここで、前記wk’は、主題単語ベクトルであり、wk(a)は、前向きkの隠れ状態系列であり、wk(b)は、後向きkの隠れ状態系列である。
さらに、本願の好ましい実施例は、前記次元n*dのテキスト単語ベクトル行列を前記畳み込みニューラルネットワークモデル(Convolutional Neural Networks、CNN)に入力し、前記畳み込みニューラルネットワークの所定の畳み込みカーネルサイズw*dにより前記テキスト単語ベクトル行列に対して畳み込み操作を行い、特徴値gを得る。ここで、前記特徴値gの計算方法は以下のとおりである。
Figure 0007286810000006
Figure 0007286810000007
さらに、本願は、前記特徴値をまとめて操作を行い、畳み込み特徴行列S=[g,g,…g,g]を得て、前記gは、具体的な一位置の畳み込みカーネルについて抽出された特徴を表す。
Figure 0007286810000008
Figure 0007286810000009
ステップ4、前記中間テキストベクトルと前記目標テキストベクトルとを繋ぎ合わせ、結合テキストベクトルを得て、前記結合テキストベクトルを予め構築した意味認識分類器モデルに入力し、前記意味認識分類器モデルのSoftmaxをカウントすることにより集約テキストベクトルを出力し、前記集約テキストベクトルに対してword2vecの逆アルゴリズムを用いて逆回復操作を行い、標準テキストを出力する。
本願の好ましい実施例において、前記繋ぎ合わせ操作は、前記目標テキストベクトルと前記中間テキストベクトルとを首尾接続操作し、結合テキストベクトルを生成することである。さらに、前記意味認識分類モデルは分類器モデルを含み、前記結合テキストベクトルを分類器モデルに入力し、前記結合テキストベクトルに前記分類器モデルによって集約操作を行い、集約テキストベクトルを得る。前記集約操作は、前記結合テキストベクトルの次元属性が近く且つ意味的に連続なベクトルをフィルタリングし、前記結合テキストベクトルの残りのベクトルをフィルタリングした後、句読点で接続することで、前記集約テキストベクトルを得て、分類器モデルのSoftmaxによって出力する。さらに、本願は、前記word2vec逆アルゴリズムモジュールを用いて、前記集約テキストベクトルに対して逆回復操作を行うことで、標準テキストを出力し、ここで、前記word2vec逆アルゴリズムモジュールは、数値型のテキストベクトル行列を対応するテキストデータに復元することができる。
好ましくは、他の実施例において、テキスト知能化洗浄プログラムは、1つ又は複数のモジュールに分割されてもよく、1つ又は複数のモジュールがメモリ11に記憶されて1つ又は複数のプロセッサ(本実施例ではプロセッサ12)によって実行されて本願を完了させ、本願で言及されるモジュールは、テキスト知能化洗浄装置におけるテキスト知能化洗浄プログラムの実行プロセスを記述するための特定の機能を完了させることができる一連のコンピュータプログラム命令セグメントを指す。
例えば、図3を参照すると、本願のテキスト知能化洗浄装置の一実施例におけるテキスト知能化洗浄プログラムのプログラムモジュールの概略図であり、当該実施例において、前記テキスト知能化洗浄プログラムは、テキスト前処理モジュール10、単語ベクトル分割モジュール20、モデル処理モジュール30、及び標準テキスト生成モジュール40に分割されてもよく、例示的に、以下のとおりである。
前記テキスト前処理モジュール10は、テキストセットを取得し、前記テキストセットに対して前処理操作を行い、単語ベクトルテキストセットを得るために用いられる。
前記単語ベクトル分割モジュール20は、前記単語ベクトルテキストセットに対して全文行列数値化操作を行い、主体単語ベクトル行列及びテキスト単語ベクトル行列を生成するために用いられる。
前記モデル処理モジュール30は、前記主体単語ベクトル行列をBiLSTMモデルに入力して中間テキストベクトルを生成し、前記テキスト単語ベクトル行列を畳み込みニューラルネットワークモデルに入力して目標テキストベクトルを生成するために用いられる。
前記標準テキスト生成モジュール40は、前記中間テキストベクトルと前記目標テキストベクトルとを繋ぎ合わせ、結合テキストベクトルを得て、前記結合テキストベクトルを予め構築した意味認識分類器モデルに入力し、集約テキストベクトルを出力し、前記集約テキストベクトルに対してword2vecの逆アルゴリズムを用いて逆回復操作を行い、標準テキストを出力するために用いられる。
上記のテキスト前処理モジュール10、単語ベクトル分割モジュール20、モデル処理モジュール30、及び標準テキスト生成モジュール40などのプログラムモジュールが実行される際に実現される機能又は操作ステップは、上記の実施例と実質的に同じであり、ここでは説明を省略する。
また、本願の実施例は、コンピュータ読み取り可能な記憶媒体をさらに提供し、前記コンピュータ読み取り可能な記憶媒体にテキスト知能化洗浄プログラムが記憶され、前記テキスト知能化洗浄プログラムは、
テキストセットを取得し、前記テキストセットに対して前処理操作を行い、単語ベクトルテキストセットを得るステップと、
前記単語ベクトルテキストセットに対して全文行列数値化操作を行い、主体単語ベクトル行列及びテキスト単語ベクトル行列を生成するステップと、
前記主体単語ベクトル行列をBiLSTMモデルに入力して中間テキストベクトルを生成するステップと、
前記テキスト単語ベクトル行列を畳み込みニューラルネットワークモデルに入力して目標テキストベクトルを生成するステップと、
前記中間テキストベクトルと前記目標テキストベクトルとを繋ぎ合わせ、結合テキストベクトルを得て、前記結合テキストベクトルを予め構築した意味認識分類器モデルに入力し、集約テキストベクトルを出力し、前記集約テキストベクトルに対してword2vecの逆アルゴリズムを用いて逆回復操作を行い、標準テキストを出力するステップと、を実現するために、1つ又は複数のプロセッサによって実行されることができる。
本願のコンピュータ読み取り可能な記憶媒体の具体的な実施形態は、上記のテキスト知能化洗浄装置及び方法の各実施例と基本的に同じであり、ここでは説明を省略する。
なお、上記の本願の実施例の番号は、説明のためのものにすぎず、実施例の優劣を表すものではない。本明細書における用語「含む」、「含有」、又はそれらの任意の他の変形は、非排他的な含有をカバーするように意図され、したがって、一連の要素を含むプロセス、装置、物品、又は方法は、それらの要素を含むだけでなく、明示的に列挙されていない他の要素も含み、又はそのようなプロセス、装置、物品、又は方法に固有の要素も含む。「……を含む」という語句によって定義される要素は、これ以上の制限がない限り、当該要素を含むプロセス、装置、物品、又は方法において、他の同じ要素が存在することを除外しない。
以上の実施形態の説明により、当業者は、上記の実施例の方法が、ソフトウェアに、必要な汎用ハードウェアプラットフォームを加えた方式で実現でき、当然ハードウェアによっても実現することができるが、前者がより好ましい実施形態である場合が多いことを明確に理解することができる。このような理解に基づいて、本願の技術的解決手段の本質又は従来技術に貢献する部分は、ソフトウェア製品の形態で具体化されてもよく、当該コンピュータソフトウェア製品は、上述のような1つの記憶媒体(例えば、ROM/RAM、磁気ディスク、光ディスク)に記憶され、1台の端末機器(携帯電話、コンピュータ、サーバー、又はネットワーク機器などでもよい)に本願の各実施例に記載の方法を実行させるための複数の命令を含む。
以上は本願の好ましい実施例にすぎず、それによって本願の特許範囲を制限するものではなく、本願の明細書及び図面内容を利用して行われる等価構造又は等価フロー変換、或いは直接的又は間接的に他の関連技術分野に応用される場合、いずれも同様に本願の特許請求範囲に含まれる。

Claims (15)

  1. テキスト知能化洗浄方法であって、
    テキスト前処理モジュールにより、テキストセットを取得し、前記テキストセットに対して前処理操作を行い、単語ベクトルテキストセットを得るステップと、
    単語ベクトル分割モジュールにより、前記単語ベクトルテキストセットに対して全文行列数値化操作を行い、主体単語ベクトル行列及びテキスト単語ベクトル行列を生成するステップと、
    モデル処理モジュールにより、前記主体単語ベクトル行列をBiLSTMモデルに入力して中間テキストベクトルを生成するステップと、
    前記モデル処理モジュールにより、前記テキスト単語ベクトル行列を畳み込みニューラルネットワークモデルに入力して目標テキストベクトルを生成するステップと、
    標準テキスト生成モジュールにより、前記中間テキストベクトルと前記目標テキストベクトルとを繋ぎ合わせ、結合テキストベクトルを得て、前記結合テキストベクトルを予め構築した意味認識分類器モデルに入力し、集約テキストベクトルを出力し、前記集約テキストベクトルに対してword2vecの逆アルゴリズムを用いて逆回復操作を行い、標準テキストを出力するステップと、を含むことを特徴とするテキスト知能化洗浄方法。
  2. 前記テキスト前処理モジュールにより、テキストセットに対して前処理操作を行い、単語ベクトルテキストセットを得る前記ステップは、
    split文字列により前記テキストセットに対してテキスト分割操作を行い、単位語句を得るステップと、
    word2vecモデルを利用して位語句セットを前記単語ベクトルテキストセットに変換するステップと、を含むことを特徴とする請求項1に記載のテキスト知能化洗浄方法。
  3. 前記テキスト前処理モジュールにより、前記word2vecモデルを利用して前記単位語句セットを前記単語ベクトルテキストセットに変換する前記ステップは、
    位語句セットをワンホット形式で量子化して語彙リストベクトルを得て、前記語彙リストベクトルを前記Word2vecモデルに入力し、前記語彙リストベクトルを前記word2vecモデルにおける隠れ層を用いて圧縮処理して低次元ベクトルを形成し、語ベクトルテキストを得るステップを含むことを特徴とする請求項2に記載のテキスト知能化洗浄方法。
  4. 前記モデル処理モジュールにより、前記主体単語ベクトル行列をBiLSTMモデルに入力して中間テキストベクトルを生成する前記ステップは、
    前記BiLSTMモデルにおけるLSTM-targetのエンコーダにより前記主体単語ベクトル行列をエンコードし、前向き隠れ状態系列を得るステップと、
    前記BiLSTMモデルにおけるLSTM-descriのエンコーダにより前記主体単語ベクトル行列をエンコードし、後向き隠れ状態系列を得るステップと、
    前記前向き隠れ状態系列と前記後向き隠れ状態系列とを繋ぎ合わせ、主題単語ベクトルを得て、前記主題単語ベクトルをまとめて前記中間テキストベクトルを得るステップと、を含むことを特徴とする請求項1に記載のテキスト知能化洗浄方法。
  5. 前記モデル処理モジュールにより、前記テキスト単語ベクトル行列を畳み込みニューラルネットワークモデルに入力して目標テキストベクトルを生成する前記ステップは、
    前記畳み込みニューラルネットワークの所定の畳み込みカーネルサイズにより前記テキスト単語ベクトル行列に対して畳み込み操作を行い、特徴値を得るステップと、
    前記特徴値をまとめて操作を行い、畳み込み特徴行列を得て、前記畳み込み特徴行列と前記中間テキストベクトルを同じ次元空間にマッピングし、前記畳み込み特徴行列と前記中間テキストベクトルのコサイン類似度を得るステップと、
    前記コサイン類似度の注意力重みを算出し、前記注意力重みをまとめて注意力重み行列を得るステップと、
    前記畳み込み特徴行列中の特徴値と前記注意力重み行列に対応する注意力重みを重み付けして前記目標テキストベクトル中の特徴点を得て、前記目標テキストベクトル中の特徴点をまとめて目標テキストベクトルを得るステップと、を含むことを特徴とする請求項1に記載のテキスト知能化洗浄方法。
  6. 前記モデル処理モジュールにより、前記テキスト単語ベクトル行列を畳み込みニューラルネットワークモデルに入力して目標テキストベクトルを生成する前記ステップは、
    前記畳み込みニューラルネットワークの所定の畳み込みカーネルサイズにより前記テキスト単語ベクトル行列に対して畳み込み操作を行い、特徴値を得るステップと、
    前記特徴値をまとめて操作を行い、畳み込み特徴行列を得て、前記畳み込み特徴行列と前記中間テキストベクトルを同じ次元空間にマッピングし、前記畳み込み特徴行列と前記中間テキストベクトルのコサイン類似度を得るステップと、
    前記コサイン類似度の注意力重みを算出し、前記注意力重みをまとめて注意力重み行列を得るステップと、
    前記畳み込み特徴行列中の特徴値と前記注意力重み行列に対応する注意力重みを重み付けして前記目標テキストベクトル中の特徴点を得て、前記目標テキストベクトル中の特徴点をまとめて目標テキストベクトルを得るステップと、を含むことを特徴とする請求項2に記載のテキスト知能化洗浄方法。
  7. 前記モデル処理モジュールにより、前記テキスト単語ベクトル行列を畳み込みニューラルネットワークモデルに入力して目標テキストベクトルを生成する前記ステップは、
    前記畳み込みニューラルネットワークの所定の畳み込みカーネルサイズにより前記テキスト単語ベクトル行列に対して畳み込み操作を行い、特徴値を得るステップと、
    前記特徴値をまとめて操作を行い、畳み込み特徴行列を得て、前記畳み込み特徴行列と前記中間テキストベクトルを同じ次元空間にマッピングし、前記畳み込み特徴行列と前記中間テキストベクトルのコサイン類似度を得るステップと、
    前記コサイン類似度の注意力重みを算出し、前記注意力重みをまとめて注意力重み行列を得るステップと、
    前記畳み込み特徴行列中の特徴値と前記注意力重み行列に対応する注意力重みを重み付けして前記目標テキストベクトル中の特徴点を得て、前記目標テキストベクトル中の特徴点をまとめて目標テキストベクトルを得るステップと、を含むことを特徴とする請求項3に記載のテキスト知能化洗浄方法。
  8. 前記モデル処理モジュールにより、前記テキスト単語ベクトル行列を畳み込みニューラルネットワークモデルに入力して目標テキストベクトルを生成する前記ステップは、
    前記畳み込みニューラルネットワークの所定の畳み込みカーネルサイズにより前記テキスト単語ベクトル行列に対して畳み込み操作を行い、特徴値を得るステップと、
    前記特徴値をまとめて操作を行い、畳み込み特徴行列を得て、前記畳み込み特徴行列と前記中間テキストベクトルを同じ次元空間にマッピングし、前記畳み込み特徴行列と前記中間テキストベクトルのコサイン類似度を得るステップと、
    前記コサイン類似度の注意力重みを算出し、前記注意力重みをまとめて注意力重み行列を得るステップと、
    前記畳み込み特徴行列中の特徴値と前記注意力重み行列に対応する注意力重みを重み付けして前記目標テキストベクトル中の特徴点を得て、前記目標テキストベクトル中の特徴点をまとめて目標テキストベクトルを得るステップと、を含むことを特徴とする請求項4に記載のテキスト知能化洗浄方法。
  9. テキスト知能化洗浄装置であって、メモリとプロセッサとを含み、前記メモリに前記プロセッサ上で実行可能なテキスト知能化洗浄プログラムが記憶され、前記テキスト知能化洗浄プログラムは、前記プロセッサによって実行されると、
    テキストセットを取得し、前記テキストセットに対して前処理操作を行い、単語ベクトルテキストセットを得るステップと、
    前記単語ベクトルテキストセットに対して全文行列数値化操作を行い、主体単語ベクトル行列及びテキスト単語ベクトル行列を生成するステップと、
    前記主体単語ベクトル行列をBiLSTMモデルに入力して中間テキストベクトルを生成するステップと、
    前記テキスト単語ベクトル行列を畳み込みニューラルネットワークモデルに入力して目標テキストベクトルを生成するステップと、
    前記中間テキストベクトルと前記目標テキストベクトルとを繋ぎ合わせ、結合テキストベクトルを得て、前記結合テキストベクトルを予め構築した意味認識分類器モデルに入力し、集約テキストベクトルを出力し、前記集約テキストベクトルに対してword2vecの逆アルゴリズムを用いて逆回復操作を行い、標準テキストを出力するステップと、を実現することを特徴とするテキスト知能化洗浄装置。
  10. テキストセットに対して前処理操作を行い、単語ベクトルテキストセットを得る前記ステップは、
    split文字列により前記テキストセットに対してテキスト分割操作を行い、単位語句を得るステップと、
    word2vecモデルを利用して位語句セットを前記単語ベクトルテキストセットに変換するステップと、を含むことを特徴とする請求項9に記載のテキスト知能化洗浄装置。
  11. 前記word2vecモデルを利用して前記単位語句セットを前記単語ベクトルテキストセットに変換する前記ステップは、
    位語句セットをワンホット形式で量子化して語彙リストベクトルを得て、前記語彙リストベクトルを前記Word2vecモデルに入力し、前記語彙リストベクトルを前記word2vecモデルにおける隠れ層を用いて圧縮処理して低次元ベクトルを形成し、語ベクトルテキストを得るステップを含むことを特徴とする請求項10に記載のテキスト知能化洗浄装置。
  12. 前記主体単語ベクトル行列をBiLSTMモデルに入力して中間テキストベクトルを生成する前記ステップは、
    前記BiLSTMモデルにおけるLSTM-targetのエンコーダにより前記主体単語ベクトル行列をエンコードし、前向き隠れ状態系列を得るステップと、
    前記BiLSTMモデルにおけるLSTM-descriのエンコーダにより前記主体単語ベクトル行列をエンコードし、後向き隠れ状態系列を得るステップと、
    前記前向き隠れ状態系列と前記後向き隠れ状態系列とを繋ぎ合わせ、主題単語ベクトルを得て、前記主題単語ベクトルをまとめて前記中間テキストベクトルを得るステップと、を含むことを特徴とする請求項9に記載のテキスト知能化洗浄装置。
  13. 前記テキスト単語ベクトル行列を畳み込みニューラルネットワークモデルに入力して目標テキストベクトルを生成する前記ステップは、
    前記畳み込みニューラルネットワークの所定の畳み込みカーネルサイズにより前記テキスト単語ベクトル行列に対して畳み込み操作を行い、特徴値を得るステップと、
    前記特徴値をまとめて操作を行い、畳み込み特徴行列を得て、前記畳み込み特徴行列と前記中間テキストベクトルを同じ次元空間にマッピングし、前記畳み込み特徴行列と前記中間テキストベクトルのコサイン類似度を得るステップと、
    前記コサイン類似度の注意力重みを算出し、前記注意力重みをまとめて注意力重み行列を得るステップと、
    前記畳み込み特徴行列中の特徴値と前記注意力重み行列に対応する注意力重みを重み付けして前記目標テキストベクトル中の特徴点を得て、前記目標テキストベクトル中の特徴点をまとめて目標テキストベクトルを得るステップと、を含むことを特徴とする請求項9-12のいずれか1項に記載のテキスト知能化洗浄装置。
  14. コンピュータ読み取り可能な記憶媒体であって、前記コンピュータ読み取り可能な記憶媒体にテキスト知能化洗浄プログラムが記憶され、前記テキスト知能化洗浄プログラムは、
    テキストセットを取得し、前記テキストセットに対して前処理操作を行い、単語ベクトルテキストセットを得るステップと、
    前記単語ベクトルテキストセットに対して全文行列数値化操作を行い、主体単語ベクトル行列及びテキスト単語ベクトル行列を生成するステップと、
    前記主体単語ベクトル行列をBiLSTMモデルに入力して中間テキストベクトルを生成するステップと、
    前記テキスト単語ベクトル行列を畳み込みニューラルネットワークモデルに入力して目標テキストベクトルを生成するステップと、
    前記中間テキストベクトルと前記目標テキストベクトルとを繋ぎ合わせ、結合テキストベクトルを得て、前記結合テキストベクトルを予め構築した意味認識分類器モデルに入力し、集約テキストベクトルを出力し、前記集約テキストベクトルに対してword2vecの逆アルゴリズムを用いて逆回復操作を行い、標準テキストを出力するステップと、を実現するために、1つ又は複数のプロセッサによって実行されることができることを特徴とするコンピュータ読み取り可能な記憶媒体。
  15. 前記主体単語ベクトル行列をBiLSTMモデルに入力して中間テキストベクトルを生成する前記ステップは、
    前記BiLSTMモデルにおけるLSTM-targetのエンコーダにより前記主体単語ベクトル行列をエンコードし、前向き隠れ状態系列を得るステップと、
    前記BiLSTMモデルにおけるLSTM-descriのエンコーダにより前記主体単語ベクトル行列をエンコードし、後向き隠れ状態系列を得るステップと、
    前記前向き隠れ状態系列と前記後向き隠れ状態系列とを繋ぎ合わせ、主題単語ベクトルを得て、前記主題単語ベクトルをまとめて前記中間テキストベクトルを得るステップと、を含むことを特徴とする請求項14に記載のコンピュータ読み取り可能な記憶媒体。
JP2021569240A 2019-07-03 2019-08-23 テキスト知能化洗浄方法、装置及びコンピュータ読み取り可能な記憶媒体 Active JP7286810B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201910601253.7 2019-07-03
CN201910601253.7A CN110442711B (zh) 2019-07-03 2019-07-03 文本智能化清洗方法、装置及计算机可读存储介质
PCT/CN2019/102204 WO2021000391A1 (zh) 2019-07-03 2019-08-23 文本智能化清洗方法、装置及计算机可读存储介质

Publications (2)

Publication Number Publication Date
JP2022534375A JP2022534375A (ja) 2022-07-29
JP7286810B2 true JP7286810B2 (ja) 2023-06-05

Family

ID=68428499

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021569240A Active JP7286810B2 (ja) 2019-07-03 2019-08-23 テキスト知能化洗浄方法、装置及びコンピュータ読み取り可能な記憶媒体

Country Status (5)

Country Link
US (1) US11599727B2 (ja)
JP (1) JP7286810B2 (ja)
CN (1) CN110442711B (ja)
SG (1) SG11202112454RA (ja)
WO (1) WO2021000391A1 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111191459B (zh) * 2019-12-25 2023-12-12 医渡云(北京)技术有限公司 一种文本处理方法、装置、可读介质及电子设备
CN111274357A (zh) * 2020-01-19 2020-06-12 深圳中泓在线股份有限公司 新闻舆情识别方法、设备及存储介质
CN113065347B (zh) * 2021-04-26 2022-06-28 上海交通大学 基于多任务学习的刑事案件判决预测方法、系统及介质
CN113554053B (zh) * 2021-05-20 2023-06-20 重庆康洲大数据有限公司 一种比较中药处方相似性的方法
CN115225371B (zh) * 2022-07-18 2023-03-17 四川大学 一种基于对比学习的网络靶场背景流量分布式生成方法
CN117312506B (zh) * 2023-09-07 2024-03-08 广州风腾网络科技有限公司 一种页面语义信息提取方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005339295A (ja) 2004-05-28 2005-12-08 Fuji Xerox Co Ltd 文書処理装置、文書処理方法及び文書処理プログラム
JP2011043895A (ja) 2009-08-19 2011-03-03 Fuji Xerox Co Ltd 文書処理装置、及び文書処理プログラム
US20150301706A1 (en) 2012-12-20 2015-10-22 Thomson Licensing Identifiable tabbing for bookmarks in electronic books

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08292861A (ja) * 1995-04-20 1996-11-05 Fuji Xerox Co Ltd 付箋表示制御装置
EP2488963A1 (en) * 2009-10-15 2012-08-22 Rogers Communications Inc. System and method for phrase identification
AU2015201364A1 (en) * 2014-03-17 2015-10-01 Accenture Global Services Limited Generating a semantic network based on semantic connections between subject-verb-object units
CN105354212A (zh) * 2015-09-24 2016-02-24 上海车音网络科技有限公司 洗车装置、系统及洗车方法
CN107203507B (zh) * 2016-03-17 2019-08-13 阿里巴巴集团控股有限公司 特征词汇提取方法及装置
US10606873B2 (en) * 2016-08-16 2020-03-31 Ebay Inc. Search index trimming
CN107808660A (zh) * 2016-09-05 2018-03-16 株式会社东芝 训练神经网络语言模型的方法和装置及语音识别方法和装置
CN106599933A (zh) * 2016-12-26 2017-04-26 哈尔滨工业大学 一种基于联合深度学习模型的文本情感分类方法
US10474709B2 (en) * 2017-04-14 2019-11-12 Salesforce.Com, Inc. Deep reinforced model for abstractive summarization
US11170287B2 (en) * 2017-10-27 2021-11-09 Salesforce.Com, Inc. Generating dual sequence inferences using a neural network model
US10909157B2 (en) * 2018-05-22 2021-02-02 Salesforce.Com, Inc. Abstraction of text summarization
CN109885826A (zh) * 2019-01-07 2019-06-14 平安科技(深圳)有限公司 文本词向量获取方法、装置、计算机设备及存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005339295A (ja) 2004-05-28 2005-12-08 Fuji Xerox Co Ltd 文書処理装置、文書処理方法及び文書処理プログラム
JP2011043895A (ja) 2009-08-19 2011-03-03 Fuji Xerox Co Ltd 文書処理装置、及び文書処理プログラム
US20150301706A1 (en) 2012-12-20 2015-10-22 Thomson Licensing Identifiable tabbing for bookmarks in electronic books

Also Published As

Publication number Publication date
US11599727B2 (en) 2023-03-07
CN110442711A (zh) 2019-11-12
SG11202112454RA (en) 2021-12-30
CN110442711B (zh) 2023-06-30
JP2022534375A (ja) 2022-07-29
US20220318515A1 (en) 2022-10-06
WO2021000391A1 (zh) 2021-01-07

Similar Documents

Publication Publication Date Title
JP7286810B2 (ja) テキスト知能化洗浄方法、装置及びコンピュータ読み取り可能な記憶媒体
CN108615036B (zh) 一种基于卷积注意力网络的自然场景文本识别方法
CN108959246B (zh) 基于改进的注意力机制的答案选择方法、装置和电子设备
WO2020224219A1 (zh) 中文分词方法、装置、电子设备及可读存储介质
CN112329465A (zh) 一种命名实体识别方法、装置及计算机可读存储介质
CN110442857B (zh) 情感智能判断方法、装置及计算机可读存储介质
CN112395385B (zh) 基于人工智能的文本生成方法、装置、计算机设备及介质
CN110866098B (zh) 基于transformer和lstm的机器阅读方法、装置及可读存储介质
JP7417679B2 (ja) 情報抽出方法、装置、電子機器及び記憶媒体
WO2023138188A1 (zh) 特征融合模型训练及样本检索方法、装置和计算机设备
CN113434636B (zh) 基于语义的近似文本搜索方法、装置、计算机设备及介质
WO2024098533A1 (zh) 图文双向搜索方法、装置、设备及非易失性可读存储介质
KR101717230B1 (ko) 재귀 오토인코더 기반 문장 벡터 모델링을 이용하는 문서 요약 방법 및 문서 요약 시스템
US11676410B1 (en) Latent space encoding of text for named entity recognition
JP2023022845A (ja) ビデオ処理方法、ビデオサーチ方法及びモデルトレーニング方法、装置、電子機器、記憶媒体及びコンピュータプログラム
CN110263304B (zh) 语句编码方法、语句解码方法、装置、存储介质及设备
CN113947095B (zh) 多语种文本翻译方法、装置、计算机设备及存储介质
CN113705315A (zh) 视频处理方法、装置、设备及存储介质
WO2022228127A1 (zh) 要素文本处理方法、装置、电子设备和存储介质
WO2021051934A1 (zh) 基于人工智能的合同关键条款提取方法、装置及存储介质
WO2021139076A1 (zh) 智能化文本对话生成方法、装置及计算机可读存储介质
CN114281982B (zh) 一种多模态融合技术的图书宣传摘要生成方法和系统
JP7291181B2 (ja) 業界テキスト増分方法、関連装置、およびコンピュータプログラム製品
CN109241272B (zh) 一种中文文本摘要生成方法、计算机可读储存介质及计算机设备
CN117635275B (zh) 基于大数据的智能电商运营商品管理平台及方法

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211119

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211119

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20221128

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221129

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230221

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230523

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230524

R150 Certificate of patent or registration of utility model

Ref document number: 7286810

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150