JP2020507155A - 単語ベクトル処理方法および装置 - Google Patents

単語ベクトル処理方法および装置 Download PDF

Info

Publication number
JP2020507155A
JP2020507155A JP2019539241A JP2019539241A JP2020507155A JP 2020507155 A JP2020507155 A JP 2020507155A JP 2019539241 A JP2019539241 A JP 2019539241A JP 2019539241 A JP2019539241 A JP 2019539241A JP 2020507155 A JP2020507155 A JP 2020507155A
Authority
JP
Japan
Prior art keywords
word
vector
stroke
words
corpus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019539241A
Other languages
English (en)
Other versions
JP6742653B2 (ja
Inventor
シャオシェン・カオ
シャオロン・リ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Publication of JP2020507155A publication Critical patent/JP2020507155A/ja
Application granted granted Critical
Publication of JP6742653B2 publication Critical patent/JP6742653B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/53Processing of non-Latin text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Abstract

本出願の実施形態は単語ベクトル処理方法および装置を開示する。本方法は、コーパスに単語分割を行って単語を得るステップと、単語に対応するnグラム筆画であって、対応単語のn個の連続する筆画を表す、nグラム筆画を決定するステップと、単語の単語ベクトルおよび単語に対応するnグラム筆画の筆画ベクトルを確立および初期化するステップと、単語分割後に得られるコーパス、単語ベクトルおよび筆画ベクトルに従って単語ベクトルおよび筆画ベクトルを訓練するステップとを含む。本出願の実施形態により、単語に対応するnグラム筆画を使用することによって単語の特徴がより的確に示され、したがって中国語単語の単語ベクトルの正確さを高めて、所望の実際的効果を達成できる。

Description

優先権の主張
本出願は、2017年1月22日に出願の中国特許出願第201710045459.7号に対する優先権を主張し、その内容全体が参照により本明細書に組み込まれる。
本出願は、コンピュータソフトウェア技術の技術分野に関し、特に、単語ベクトル処理方法および装置に関する。
現在の自然言語処理手法の大部分はニューラルネットワークベースのアーキテクチャを使用する。そのようなアーキテクチャにおける重要な基盤技術が単語ベクトルである。単語ベクトルは、固定次元に単語をマッピングするためのベクトルであり、単語の意味情報を表す。
先行技術では、一般の単語ベクトル生成アルゴリズムは、例えば、Google(登録商標)の単語ベクトルアルゴリズム、Facebook(登録商標)のnグラム文字アルゴリズム、Microsoft(登録商標)のディープニューラルネットワークアルゴリズム等、英語に特化して設計されている。
しかしながら、先行技術におけるこれらのアルゴリズムは中国語には応用できず、またはアルゴリズムは中国語に応用できるが、それによって生成される中国語単語の単語ベクトルは実際的効果に乏しい。
本出願の実施形態は、先行技術における単語ベクトル生成アルゴリズムが中国語には応用できない、またはアルゴリズムは中国語に応用できるが、それによって生成される中国語単語の単語ベクトルが実際的効果に乏しいという問題を解決するように、単語ベクトル処理方法および装置を提供する。
上述の技術的問題を解決するために、本出願の実施形態は次の通りに実装される。
本出願の実施形態は、
コーパスに単語分割を行って単語を得るステップと、
単語に対応するnグラム筆画であって、対応単語のn個の連続する筆画を表す、nグラム筆画を決定するステップと、
単語の単語ベクトルおよび単語に対応するnグラム筆画の筆画ベクトルを確立および初期化するステップと、
単語分割後に得られるコーパス、単語ベクトルおよび筆画ベクトルに従って単語ベクトルおよび筆画ベクトルを訓練するステップとを含む、単語ベクトル処理方法を提供する。
本出願の実施形態は、
コーパスに単語分割を行って単語を得るように構成される単語分割モジュールと、
単語に対応するnグラム筆画を決定するように構成される決定モジュールであって、nグラム筆画が対応単語のn個の連続する筆画を表す、決定モジュールと、
単語の単語ベクトルおよび単語に対応するnグラム筆画の筆画ベクトルを確立および初期化するように構成される初期化モジュールと、
単語分割後に得られるコーパス、単語ベクトルおよび筆画ベクトルに従って単語ベクトルおよび筆画ベクトルを訓練するように構成される訓練モジュールとを含む、単語ベクトル処理装置を提供する。
上述の技術的手法の少なくとも1つを使用することによって、本出願の実施形態は次の有益な効果を達成できる。単語に対応するnグラム筆画を使用することによって単語の特徴がより的確に示され、したがって中国語単語の単語ベクトルの正確さを高めて、所望の実際的効果を達成できる。したがって、本出願は先行技術における一部またはすべての問題を解決できる。
本出願の実施形態におけるまたは先行技術における技術的手法をより明確に説明するために、以下、実施形態または先行技術を説明するために必要とされる添付図面を簡単に紹介する。明らかに、以下の説明における添付図面は単に本発明の一部の実施形態を図示するだけであり、当業者は創意工夫なしにこれらの添付図面から他の図面をさらに導き出し得る。
本出願の一実施形態に係る単語ベクトル処理方法の概略フローチャートである。 本出願の一実施形態に係る実際の応用シナリオにおける単語ベクトル処理方法の具体的な実装手法の概略フローチャートである。 本出願の一実施形態に係る図2の工程に使用されるコーパスの一部への関連処理行為の概略図である。 本出願の一実施形態に係る図1に対応する単語ベクトル処理装置の概略構造図である。
本出願の実施形態は単語ベクトル処理方法および装置を提供する。
当業者に本出願の技術的手法をより良く理解させるために、本出願の実施形態の技術的手法は、本出願の実施形態における添付図面を参照しつつ明確かつ完全に下記に説明される。明らかに、記載される実施形態は本出願の実施形態のすべてではなく一部である。本出願の記載される実施形態に基づいて、創意工夫なしに当業者によって得られるすべての他の実施形態が本出願の保護範囲に帰属する。
本出願の手法は、中国語単語の単語ベクトルに、および中国語と類似する別の言語の単語の単語ベクトル、例えば、日本語など、筆画を特徴とする言語の単語の単語ベクトルにも応用できる。
図1は、本出願の一実施形態に係る単語ベクトル処理方法の概略フローチャートである。この工程は、単語ベクトル生成機能および/または訓練機能を有するプログラムによって実行されてよい。装置の観点から、工程を実行するエンティティが、プログラムを保持できる以下の装置パーソナルコンピュータ、すなわち、中/大規模コンピュータ、コンピュータクラスタ、移動電話、タブレットコンピュータ、インテリジェントウェアラブルデバイス、車載製品等を含んでよいが、これらに限定されない。
図1の工程は以下のステップを含んでよい。
S101:コーパスに単語分割が行われて単語を得る。
本出願の実施形態において、単語は詳細には、コーパスに少なくとも一度出現する単語の少なくとも一部であってよい。以降の処理を容易にするために、単語は用語集に記憶されてよく、必要とされるときに用語集から読み込まれる。
S102:単語に対応するnグラム筆画であって、対応単語のn個の連続する筆画を表す、nグラム筆画が決定される。
理解を容易にするために、「nグラム筆画」は一例として中国語を使用することによってさらに説明される。漢字または漢語に関しては、筆画には「横」、「縦」、「左払い」、「右払い」、「折」、「点」、「跳」等を含む。nグラム筆画は1つの漢字または漢語のn個の連続する筆画を表してよい。
例えば、文字
(宝を意味する漢字である)に関しては、その対応する3グラム
筆画が「横、横および縦」(第1筆画から第3筆画)、「横、縦および跳」(第2筆画から第4筆画)、「縦、跳および左払い」(第3筆画から第5筆画)等であり、ならびに対応する4グラム筆画が「横、横、縦および跳」(第1筆画から第4筆画)、「横、縦、跳および左払い」(第2筆画から第5筆画)等である。
別の例として、用語
(成人を意味する中国語用語である)に関しては、その対応する3グラム筆画が「横、左払いおよび右払い」(第1筆画から第3筆画)、「左払い、右払いおよび左払い」(第2筆画から第4筆画)等であり、ならびに対応する4グラム筆画が「横、左払い、右払いおよび左払い」(第1筆画から第4筆画)、「左払い、右払い、左払いおよび右払い」(第2筆画から第5筆画)等である。
本出願の実施形態において、nの値は動的に調節されてよい。同じ単語に対して、単語に対応するnグラム筆画を決定するとき、nは1つの値だけを有しても(例えば、単語に対応する3グラム筆画だけが決定される)、または多値を有してもよい(例えば、単語に対応する3グラム筆画および4グラム筆画が決定される)。nの値が特定値であると、nグラム筆画はおそらくは厳密に文字の部首である。nの値が文字または用語の総筆画数であると、nグラム筆画は厳密に文字または用語である。
本出願の実施形態において、コンピュータ処理を容易にするために、nグラム筆画は指定のコードで示されてよい。例えば、異なる筆画がそれぞれ異なる数字によって示され、次いでnグラム筆画はそれに応じて数字列として表されてよい。
S103:単語の単語ベクトルおよび単語に対応するnグラム筆画の筆画ベクトルが確立および初期化される。
本出願の実施形態において、手法の効果を保証するために、単語ベクトルおよび筆画ベクトルが初期化されるときに、おそらく多少の制限がある。例えば、単語ベクトルおよび筆画ベクトルを同一のベクトルに初期化することは許されない。別の例として、一部の単語ベクトルまたは筆画ベクトルのベクトル要素の値がすべて0に等しいべきではない。
本出願の実施形態において、単語の単語ベクトルおよび単語に対応するnグラム筆画の筆画ベクトルは、ランダムな初期化方式でまたは指定の確率分布に従って初期化する方式で初期化されてよい。同じnグラム筆画の筆画ベクトルも同じである。指定の確率分布は、例えば、0から1内の分布であってよい。
加えて、一部の単語に対応する単語ベクトルおよび筆画ベクトルが他のコーパスを基準として既に訓練されていれば、これらの単語に対応する単語ベクトルおよび筆画ベクトルが図1に示されるコーパスを基準としてさらに訓練されるとき、これらの単語に対応する単語ベクトルおよび筆画ベクトルは再度確立および初期化されなくてよく、図1に示されるコーパスおよび過去の訓練結果を基準として再訓練される。
S104:単語分割後に得られるコーパス、単語ベクトルおよび筆画ベクトルに従って単語ベクトルおよび筆画ベクトルが訓練される。
本出願の実施形態において、訓練はニューラルネットワークを使用することによって実装されてよい。ニューラルネットワークにはシャローニューラルネットワークおよびディープニューラルネットワークを含むが、これらに限定されない。
図1の方法により、単語に対応するnグラム筆画を使用することによって単語の特徴がより的確に示され、したがって中国語単語の単語ベクトルの正確さを高めて、所望の実際的効果を達成できる。したがって、本方法は先行技術における一部またはすべての問題を解決できる。
図1の方法に基づいて、本出願の一実施形態が本方法の一部の具体的な実装手法および拡張手法をさらに提供し、それらが下記に説明される。
本出願の実施形態において、単語に対応するnグラム筆画を決定するステップS102は詳細には、コーパスへの単語分割の結果に従って、コーパスに少なくとも一度出現する単語を決定するステップと、
各決定した単語に以下の操作、すなわち、
単語に対応するnグラム筆画を決定する操作であって、単語に対応する各nグラム筆画が単語のn個の連続する筆画を表し、nが1つの正整数または複数の異なる正整数である、操作を行うステップとを含んでよい。
さらに、単語がコーパスに滅多に出現しなければ、コーパスに基づく訓練中に対応する訓練サンプルおよび訓練数もかなり少なく、したがって訓練結果の信頼性に悪影響を及ぼす。したがって、そのような単語は排除されてよく、一時的に訓練されず、その後別のコーパスにおいて訓練されればよい。
この考えに基づいて、単語分割の結果に従って、コーパスに少なくとも一度出現する単語を決定するステップは詳細には、コーパスへの単語分割の結果に従って、設定回数以上コーパスに出現する単語を決定するステップであって、設定回数が1以上である、ステップを含んでよい。設定回数の具体値は実際の状況に従って決定されてよい。
本出願の実施形態において、ステップS104に対して、複数の具体的な訓練方式、例えば、文脈語に基づく訓練方式、指定の類義語または同義語に基づく訓練方式等があってよい。理解を容易にするために、一例として前者の方式を使用することによって詳細な説明がなされる。
単語分割後に得られるコーパス、単語ベクトルおよび筆画ベクトルに従って単語ベクトルおよび筆画ベクトルを訓練するステップは詳細には、単語分割後に得られるコーパス内の指定語および単語分割後に得られるコーパス内の指定語の1つ以上の文脈語を決定するステップと、指定語に対応するnグラム筆画の筆画ベクトルの他に文脈語の単語ベクトルに従って指定語と文脈語との間の類似度を決定するステップと、指定語と文脈語との間の類似度に従って文脈語の単語ベクトルおよび指定語に対応するnグラム筆画の筆画ベクトルを更新するステップとを含んでよい。
本出願は類似度を決定する具体的な方式を限定しない。例えば、類似度は、ベクトル間の角度への余弦演算を基準として、またはベクトルへの平方和演算を基準として等、計算されてよい。
複数の指定語があってよい。指定語はコーパスの異なる位置に繰り返し出現してよい。前段落に記載された処理行為は各指定語に行われてよい。好ましくは、単語分割後に得られるコーパス内の各単語が指定語として使用されてよい。
本出願の実施形態において、ステップS104における訓練は指定語と文脈語との間の類似度を上昇させ(本明細書において、類似度は関連度を反映してよく、ここで単語とその文脈語との間の関連度は比較的高く、同義語または類義語に対応する文脈語も同じまたは類似の意味を有する)、指定語と非文脈語との間の類似度を低下させてよい。非文脈語は下記に説明される負サンプル語として使用されてよく、次いで文脈語は正サンプル語として使用されてよい。
訓練工程における比較のためにいくらかの負サンプル語が決定される必要があることが以上から分かる。単語分割後に得られるコーパスから1つ以上の単語が負サンプル語としてランダムに選択されても、または非文脈語が負サンプル語として厳密に選択されてもよい。一例として前者の方式を使用して、指定語と文脈語との間の類似度に従って文脈語の単語ベクトルおよび指定語に対応するnグラム筆画の筆画ベクトルを更新するステップは詳細には、負サンプル語として単語から1つ以上の単語を選択するステップと、指定語と各負サンプル語との間の類似度を決定するステップと、指定の損失関数、指定語と文脈語との間の類似度および指定語と各負サンプル語との間の類似度に従って指定語に対応する損失特性評価値を決定するステップと、損失特性評価値に従って文脈語の単語ベクトルおよび指定語に対応するnグラム筆画の筆画ベクトルを更新するステップとを含んでよい。
損失特性評価値は現在のベクトル値と訓練目標との間の誤差の程度を測定するために使用される。上述のいくつかの類似度が損失関数のパラメータとして使用されてよい。損失関数の具体的な式は本出願においては限定されず、後に一例と共に詳細に記載されることになる。
本出願の実施形態において、単語ベクトルおよび筆画ベクトルの更新は実際には誤差の程度への修正である。本出願の手法がニューラルネットワークを使用することによって実装されるとき、そのような修正は対向伝搬および勾配の降下を基準として実装されてよい。この場合、勾配は損失関数に対応する勾配である。
損失特性評価値に従って文脈語の単語ベクトルおよび指定語に対応するnグラム筆画の筆画ベクトルを更新するステップは詳細には、損失特性評価値に従って損失関数に対応する勾配を決定するステップと、勾配に従って文脈語の単語ベクトルおよび指定語に対応するnグラム筆画の筆画ベクトルを更新するステップとを含んでよい。
本出願の実施形態において、単語ベクトルおよび筆画ベクトルを訓練する工程は、単語分割後に得られるコーパス内の少なくとも一部の単語を基準として反復的に実施されてよく、その結果、単語ベクトルおよび筆画ベクトルは訓練が完了されるまで徐々に収束する。
単語分割後に得られるコーパス内のすべての単語への訓練が一例として使用される。単語分割後に得られるコーパス、単語ベクトルおよび筆画ベクトルに従って単語ベクトルおよび筆画ベクトルを訓練するステップS104は詳細には、
単語分割後に得られるコーパスを横断し、単語分割後に得られるコーパス内の各単語に以下の操作、すなわち、
単語分割後に得られるコーパス内の単語の1つ以上の文脈語を決定する、操作を行うステップと、
各文脈語に従って以下の操作、すなわち、
単語に対応するnグラム筆画の筆画ベクトルおよび文脈語の単語ベクトルに従って単語と文脈語との間の類似度を決定する、操作を行うステップと、
単語と文脈語との間の類似度に従って文脈語の単語ベクトルおよび単語に対応するnグラム筆画の筆画ベクトルを更新するステップとを含んでよい。
具体的な更新工程については上記で説明しており、再度本明細書に詳細に記載されることはない。
さらに、コンピュータ処理を容易にするために、上述の横断工程はウィンドウに基づいて実装されてよい。
例えば、単語分割後に得られるコーパス内の単語の1つ以上の文脈語を決定するステップは詳細には、この単語を中心として、単語分割後に得られるコーパス内の指定数の単語の距離だけ左および/または右にスライドしてウィンドウを確立するステップと、この単語の文脈語としてウィンドウ内のこの単語を除く単語を決定するステップとを含んでよい。
明らかに、単語分割後に得られるコーパス内の最初の単語から始まる設定長さのウィンドウであって、最初の単語および最初の単語に続く設定数の連続する単語を含むウィンドウを確立することも可能である。ウィンドウ内の単語が処理された後に、ウィンドウは前にスライドされて、コーパスが完全に横断されるまでコーパス内の次のバッチの単語を処理する。
以上、本出願の一実施形態に係る単語ベクトル処理方法を記載している。理解を容易にするために、上述の説明に基づいて、本出願の一実施形態が、図2に図示されるように、実際の応用シナリオにおける単語ベクトル処理方法の具体的な実装手法の概略フローチャートをさらに提供する。
図2における工程は主に以下のステップを含む。
ステップ1:単語分割ツールにより中国語コーパスに単語分割が行われ、単語分割後に得られる中国語コーパスがスキャンされ、出現したすべての単語が含められて用語集を確立し、出現がb回(すなわち、設定回数)未満の単語が削除される。次いでステップ2が行われる。
ステップ2:用語集が順次スキャンされ、各単語に対応するnグラム筆画が抽出されて、nグラム筆画テーブルおよび単語と対応するnグラム筆画との間のマッピングのテーブルを確立する。合計5種類の筆画が定義される:「横」、「縦」、「左払い」、「右払い」および「折」(筆画「鉤」、「点」および「跳」はすべて「折」とみなされる)、これらはそれぞれ番号1から5によって示される。次いでステップ3が行われる。
ステップ3:用語集内の各単語に対してd次元単語ベクトルが確立され、nグラム筆画テーブル内の各nグラム筆画に対してもd次元筆画ベクトルが確立され、すべての確立されたベクトルがランダムに初期化される。次いでステップ4が行われる。
ステップ4:単語分割後に得られる中国語コーパス内の最初の単語から始めて、単語上のスライドが順次行われ、各回に「現在の単語w」(すなわち、指定語)として1つの単語が選択される。コーパス全体内のすべての単語がwとして横断されたならば工程は終了し、そうでなければステップ5が行われる。
ステップ5:現在の単語を中心として、k個の単語の長さだけ両側に向けてスライドしてウィンドウを確立し、各回ウィンドウ内の最初の単語から最後の単語まで(現在の単語wを除く)から「文脈語c」として1つの単語が選択される。ウィンドウ内のすべての単語がcとして横断されたならばステップ4が行われ、そうでなければステップ6が行われる。
ステップ6:現在の単語wに関して、現在の単語wに対応するnグラム筆画を求めてステップ2における単語と対応するnグラム筆画との間のマッピングのテーブルが検索され、現在の単語wと文脈語cとの間の類似度が、以下の式(1)を使用することによって計算される:
この式中、Sはステップ2で確立されたnグラム筆画テーブルを表し、S(w)はステップ2におけるマッピングテーブル内の現在の単語wに対応するnグラム筆画の集合を表し、qは集合S(w)内の要素(すなわち、nグラム筆画)を表し、sim(w,c)は現在の単語wと文脈語cとの間の類似度のスコアを表し、
はnグラム筆画qと文脈語cとの間のベクトル内積演算を表す。次いでステップ7が行われる。
ステップ7:λ個の単語が負サンプル語としてランダムに抽出され、損失スコアl(w,c)が以下の式(2)(すなわち、上記した損失関数)に従って計算される。損失スコアは上記した損失特性評価値として使用されてよい。
この式中、logは対数関数を表し、c’はランダムに抽出された負サンプル語を表し、Ec’∈p(V)[x]は、ランダムに抽出された負サンプル語c’が確率分布p(V)を満たす場合に式xの期待値を表し、σ(・)はニューラルネットワークの励起関数である。詳細については以下の式(3)を参照されたい。
この式中、xが実数であれば、σ(x)も実数である。l(w,c)の値に従って勾配が計算され、nグラム筆画のベクトル
および文脈語のベクトル
が更新される。次いでステップ5が行われる。
ステップ6およびステップ7が上述のステップ1から7における主要なステップである。理解を容易にするために、これらの2つのステップが図3を参照しつつ一例を使用することによって記載される。
図3は、本出願の一実施形態に係る図2の工程に使用されるコーパスの一部への関連処理行為の概略図である。
図3に図示されるように、コーパスが文
(「スモッグ処理が急を要する」を意味する)を含むとすると、単語分割後に文における3つの用語
(「処理」を意味する)、
(「スモッグ」を意味する)および
(「が急を要する」を意味する)が得られる。
が現在の単語wとして選択され、
が文脈語cとして選択されるとする。現在の単語wによってマッピングされるすべてのnグラム筆画S(w)が抽出される。例えば、
によってマッピングされる3グラム筆画は「145」、「452」、「524」等を含む。次いで、式(1)、(2)および(3)に従って損失スコアl(w,c)が計算され、次いで勾配が計算されて、cの単語ベクトルおよびwに対応するすべての筆画ベクトルを更新する。
以上、本出願の一実施形態に係る単語ベクトル処理方法を記載している。同じ概念に基づいて、本出願の一実施形態が、図4に図示されるように、対応する装置をさらに提供する。
図4は、本出願の一実施形態に係る図1に対応する単語ベクトル処理装置の概略構造図である。本装置は図1の工程を実行するエンティティに設けられてよく、
コーパスに単語分割を行って単語を得るように構成される単語分割モジュール401と、
単語に対応するnグラム筆画を決定するように構成される決定モジュール402であって、nグラム筆画が対応単語のn個の連続する筆画を表す、決定モジュール402と、
単語の単語ベクトルおよび単語に対応するnグラム筆画の筆画ベクトルを確立および初期化するように構成される初期化モジュール403と、
単語分割後に得られるコーパス、単語ベクトルおよび筆画ベクトルに従って単語ベクトルおよび筆画ベクトルを訓練するように構成される訓練モジュール404とを含む。
任意選択で、決定モジュール402によって、単語に対応するnグラム筆画を決定するステップは詳細には、
決定モジュール402によって、コーパスへの単語分割の結果に従って、コーパスに少なくとも一度出現する単語を決定するステップと、
各決定した単語に以下の操作、すなわち、
単語に対応するnグラム筆画を決定する操作であって、単語に対応する各nグラム筆画が単語のn個の連続する筆画を表し、nが1つの正整数または複数の異なる正整数である、操作を行うステップとを含む。
任意選択で、決定モジュール402によって、単語分割の結果に従って、コーパスに少なくとも一度出現する単語を決定するステップは詳細には、
決定モジュール402によって、コーパスへの単語分割の結果に従って、設定回数以上コーパスに出現する単語を決定することを含み、設定回数は1以上である。
任意選択で、初期化モジュール403によって、単語の単語ベクトルおよび単語に対応するnグラム筆画の筆画ベクトルを初期化するステップは詳細には、
初期化モジュール403によって、ランダムな初期化方式でまたは指定の確率分布に従って初期化する方式で単語の単語ベクトルおよび単語に対応するnグラム筆画の筆画ベクトルを初期化し、同じnグラム筆画の筆画ベクトルも同じであることを含む。
任意選択で、訓練モジュール404によって、単語分割後に得られるコーパス、単語ベクトルおよび筆画ベクトルに従って単語ベクトルおよび筆画ベクトルを訓練するステップは詳細には、
訓練モジュール404によって、単語分割後に得られるコーパス内の指定語および単語分割後に得られるコーパス内の指定語の1つ以上の文脈語を決定するステップと、
指定語に対応するnグラム筆画の筆画ベクトルの他に文脈語の単語ベクトルに従って指定語と文脈語との間の類似度を決定するステップと、
指定語と文脈語との間の類似度に従って文脈語の単語ベクトルおよび指定語に対応するnグラム筆画の筆画ベクトルを更新するステップとを含む。
任意選択で、訓練モジュール404によって、指定語と文脈語との間の類似度に従って文脈語の単語ベクトルおよび指定語に対応するnグラム筆画の筆画ベクトルを更新するステップは詳細には、
訓練モジュール404によって、負サンプル語として単語から1つ以上の単語を選択するステップと、
指定語と各負サンプル語との間の類似度を決定するステップと、
指定の損失関数、指定語と文脈語との間の類似度および指定語と各負サンプル語との間の類似度に従って指定語に対応する損失特性評価値を決定するステップと、
損失特性評価値に従って文脈語の単語ベクトルおよび指定語に対応するnグラム筆画の筆画ベクトルを更新するステップとを含む。
任意選択で、訓練モジュール404によって、損失特性評価値に従って文脈語の単語ベクトルおよび指定語に対応するnグラム筆画の筆画ベクトルを更新するステップは詳細には、
訓練モジュール404によって、損失特性評価値に従って損失関数に対応する勾配を決定するステップと、
勾配に従って文脈語の単語ベクトルおよび指定語に対応するnグラム筆画の筆画ベクトルを更新するステップとを含む。
任意選択で、訓練モジュール404によって、負サンプル語として単語から1つ以上の単語を選択するステップは詳細には、
訓練モジュール404によって、負サンプル語として単語から1つ以上の単語をランダムに選択するステップを含む。
任意選択で、訓練モジュール404によって、単語分割後に得られるコーパス、単語ベクトルおよび筆画ベクトルに従って単語ベクトルおよび筆画ベクトルを訓練するステップは詳細には、
訓練モジュール404によって、単語分割後に得られるコーパスを横断し、単語分割後に得られるコーパス内の各単語に以下の操作、すなわち、
単語分割後に得られるコーパス内の単語の1つ以上の文脈語を決定する操作を行うステップと、
各文脈語に従って以下の操作、すなわち、
単語に対応するnグラム筆画の筆画ベクトルおよび文脈語の単語ベクトルに従って単語と文脈語との間の類似度を決定する、操作を行うステップと、
単語と文脈語との間の類似度に従って文脈語の単語ベクトルおよび単語に対応するnグラム筆画の筆画ベクトルを更新するステップとを含む。
任意選択で、訓練モジュール404によって、単語分割後に得られるコーパス内の単語の1つ以上の文脈語を決定するステップは詳細には、
この単語を中心として、訓練モジュール404によって、単語分割後に得られるコーパス内の指定数の単語の距離だけ左および/または右にスライドしてウィンドウを確立するステップと、
この単語の文脈語としてウィンドウ内のこの単語を除く単語を決定するステップとを含む。
任意選択で、単語は中国語単語であり、単語ベクトルは中国語単語の単語ベクトルである。
本出願の実施形態で提供される本装置は1対1方式で本方法に対応する。したがって、本装置も、対応する方法と類似する有益な技術的効果を有する。本方法の有益な技術的効果については上記で詳細に説明したので、対応する装置の有益な技術的効果は再度本明細書に記載されることはない。
1990年代、技術の改善はハードウェアの改善(例えば、ダイオード、トランジスタおよびスイッチなどの回路構成の改善)またはソフトウェアの改善(方法手順の改善)として明らかに区別されてよい。しかしながら、技術の発展につれて、多くの方法手順の改善が現在はハードウェア回路構成の直接的な改善と考えられてよい。ほとんどすべての設計者が、改善された方法手順をハードウェア回路へプログラムして対応するハードウェア回路構成を得る。したがって、方法手順の改善がハードウェアエンティティモジュールを使用することによっては実装可能でないとみなすことは不適当である。例えば、プログラマブルロジックデバイス(PLD)(例えば、フィールドプログラマブルゲートアレイ(FPGA))が、ユーザによってプログラムされるデバイスによって論理機能が決定されるそのような集積回路である。設計者は、チップ製造メーカに専用の集積回路チップを設計および製造するよう依頼する必要なく、自分でデジタルシステムを個々のPLDへ「集積化する」ようにプログラムする。その上、現在、プログラミングは、集積回路チップを手動で製造する代わりに、大部分は論理コンパイラソフトウェアを使用することによって実装される。論理コンパイラソフトウェアは、プログラムを開発して書くために使用されるソフトウェアコンパイラと類似し、コンパイル前のオリジナルコードも特定のプログラミング言語を使用することによって書かれる必要があり、それはハードウェア記述言語(HDL)と称される。高級ブール式言語(ABEL)、Alteraハードウェア記述言語(AHDL)、Confluence、コーネル大学プログラミング言語(CUPL)、HDCal、Javaハードウェア記述言語(JHDL)、Lava、Lola、MyHDL、PALASMおよびRubyハードウェア記述言語(RHDL)など、多くの種類のHDLがあり、中でも超高速集積回路ハードウェア記述言語(VHDL)およびVerilogが現在最も一般に使用されている。上記のいくつかのハードウェア記述言語を使用して方法手順を若干論理的にプログラムし、それを集積回路へプログラムすることによって、論理方法手順を実装するためのハードウェア回路が容易に得られることも当業者は知っているべきである。
コントローラが任意の好適な方式で実装されてよい。例えば、コントローラは、例えば、マイクロプロセッサまたはプロセッサおよび(マイクロ)プロセッサによって実行可能なコンピュータ可読プログラムコード(例えば、ソフトウェアまたはファームウェア)を記憶したコンピュータ可読媒体、論理ゲート、スイッチ、特定用途向け集積回路(ASIC)、プログラマブルロジックコントローラ、ならびに組込みマイクロコントローラの形態であってよい。コントローラの例としては、これに限定されないが、ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20およびSilicone Labs C8051F320のマイクロコントローラを含む。メモリコントローラもメモリの制御論理の一部として実装されてよい。コントローラが純コンピュータ可読プログラムコードを使用することによって実装されてよく、加えて、コントローラが論理ゲート、スイッチ、特定用途向け集積回路、プログラマブルロジックコントローラおよび組込みマイクロコントローラの形態の同じ機能を実装することを可能にするために、方法ステップが論理的にプログラムされてよいことも当業者は知っている。したがって、この種類のコントローラはハードウェア部品と考えられてよく、また様々な機能を実装するためにそこに含まれる装置もハードウェア部品内部の構成と考えられてよい。または、様々な機能を実装するために使用される装置は、方法を実装するためのソフトウェアモジュールともハードウェア部品内部の構成とも考えられさえしてよい。
上記の実施形態において例示されるシステム、装置、モジュールまたはユニットは詳細には、コンピュータチップもしくはエンティティ、または或る機能を有する製品を使用することによって実装されてよい。典型的な実装装置がコンピュータである。詳細には、コンピュータは、例えば、パーソナルコンピュータ、ラップトップコンピュータ、携帯電話、カメラ付き電話、スマートフォン、携帯情報端末、メディアプレーヤ、ナビゲーション装置、電子メール装置、ゲーム機、タブレットコンピュータ、ウェアラブル装置、またはこれらの装置のいずれかの組合せであってよい。
説明を容易にするために、装置が記載されるとき、それは、それぞれの説明のための機能に関して様々なユニットに分けられる。明らかに、本出願が実装されるとき、ユニットの機能は同じまたは複数のソフトウェアおよび/またはハードウェアで実装されてよい。
本発明の実施形態が方法、システムまたはコンピュータプログラム製品として提供されてよいと当業者は理解するべきである。したがって、本発明は、完全なハードウェア実施形態、完全なソフトウェア実施形態、またはソフトウェアおよびハードウェアを組み合わせた実施形態として実装されてよい。その上、本発明は、コンピュータ使用可能プログラムコードを含む1つ以上のコンピュータ使用可能記憶媒体(磁気ディスクメモリ、CD−ROM、光メモリ等を含むがこれらに限定されない)に実装されたコンピュータプログラム製品であってよい。
本出願は、本発明の実施形態に係る方法、装置(システム)およびコンピュータプログラム製品に係るフローチャートおよび/またはブロック図を参照しつつ記載される。フローチャートおよび/またはブロック図における各プロセスおよび/またはブロックならびにフローチャートおよび/またはブロック図におけるプロセスおよび/またはブロックの組合せを実装するためにコンピュータプログラム命令が使用されてよいことが理解されるべきである。これらのコンピュータプログラム命令は、汎用コンピュータ、専用コンピュータ、組込みプロセッサ、または任意の他のプログラム可能なデータ処理装置のプロセッサに提供されてマシンを生成してよく、その結果コンピュータまたは任意の他のプログラム可能なデータ処理装置のプロセッサによって実行される命令は、フローチャートにおける1つ以上のプロセスにおけるおよび/またはブロック図における1つ以上のブロックにおける指定の機能を実装するための装置を生成する。
これらのコンピュータプログラム命令は、コンピュータまたは任意の他のプログラム可能なデータ処理装置に特定の方式で動くように命令できるコンピュータ可読メモリに記憶されてもよく、その結果コンピュータ可読メモリに記憶された命令は、命令装置を含むアーチファクトを生成する。命令装置は、フローチャートにおける1つ以上のプロセスにおけるおよび/またはブロック図における1つ以上のブロックにおける指定の機能を実装する。
これらのコンピュータプログラム命令は、コンピュータまたは別のプログラム可能なデータ処理装置へロードされてもよく、その結果コンピュータまたは別のプログラム可能な装置上で一連の動作ステップが行われて、それによってコンピュータ実装処理を生成する。したがって、コンピュータまたは別のプログラム可能な装置上で実行される命令は、フローチャートにおける1つ以上のプロセスにおけるおよび/またはブロック図における1つ以上のブロックにおける指定の機能を実装するためのステップを提供する。
典型的な構成では、計算装置は、1つ以上の中央処理装置(CPU)、I/Oインタフェース、ネットワークインタフェースおよびメモリを含む。
メモリは、揮発性メモリ、ランダムアクセスメモリ(RAM)、および/または不揮発性メモリ、例えば、リードオンリメモリ(ROM)もしくはフラッシュRAMなどのコンピュータ可読媒体を含んでよい。メモリはコンピュータ可読媒体の一例である。
コンピュータ可読媒体は、不揮発性および揮発性媒体の他に可動および非可動媒媒体を含み、任意の方法または技術によって情報記憶を実装できる。情報は、コンピュータ可読命令、データ構造、およびプログラムまたは他のデータのモジュールであってよい。コンピュータの記憶媒体は、例えば、相変化メモリ(PRAM)、スタティックランダムアクセスメモリ(SRAM)、ダイナミックランダムアクセスメモリ(DRAM)、他の種類のRAM、ROM、電気的消去可能プログラマブルリードオンリメモリ(EEPROM)、フラッシュメモリもしくは他のメモリ技術、コンパクトディスクリードオンリメモリ(CD−ROM)、デジタル多用途ディスク(DVD)もしくは他の光記憶装置、カセットテープ、磁気テープ/磁気ディスク記憶装置もしくは他の磁気記憶装置、または任意の他の非伝送媒体を含むが、これらに限定されず、計算装置によってアクセスされる情報を記憶するために使用可能である。この本文の定義によれば、コンピュータ可読媒体には、変調データ信号および搬送波などの、一時的媒体を含まない。
用語「含む」、「備える」またはその他の変形が非排他的包含を網羅すると意図され、その結果一連の要素を含む工程、方法、商品または装置がその要素を含むだけでなく、明白に列記されていない他の要素も含む、または工程、方法、商品もしくは装置の固有の要素をさらに含むことがさらに留意されるべきである。いかなるさらなる限定もない場合には、「...を含む」によって定義される要素は、その要素を含む工程、方法、商品または装置が他の同一の要素をさらに有することを排除しない。
本出願の実施形態が方法、システムまたはコンピュータプログラム製品として提供されてよいと当業者は理解するべきである。したがって、本出願は、完全なハードウェア実施形態、完全なソフトウェア実施形態、またはソフトウェアおよびハードウェアを組み合わせた実施形態として実装されてよい。その上、本出願は、コンピュータ使用可能プログラムコードを含む1つ以上のコンピュータ使用可能記憶媒体(磁気ディスクメモリ、CD−ROM、光メモリ等を含むがこれらに限定されない)に実装されたコンピュータプログラム製品の形態であってよい。
本出願は、コンピュータ、例えば、プログラムモジュールによって実行されるコンピュータ実行可能命令の一般の文脈で記載されてよい。一般に、プログラムモジュールは、特定のタスクを実行する、または特定の抽象データ型を実装するために使用されるルーチン、プログラム、オブジェクト、アセンブリ、データ構造等を含む。本出願は分散計算環境において実装されてもよく、分散計算環境では、通信ネットワークを通じて接続される遠隔処理装置を使用することによってタスクが実行される。分散計算環境では、プログラムモジュールは、記憶装置を含むローカルおよびリモートコンピュータ記憶媒体に設けられてよい。
本明細書における実施形態は累進的に記載され、実施形態の同一または類似の部分は互いを参照しつつ得られてよく、各実施形態は他の実施形態と異なる部分を強調している。特に、システム実施形態は方法実施形態と基本的に類似しているので、それは簡潔に記載されており、関連部分に関しては、方法実施形態における部分の説明が参照されてよい。
以上の説明は単に本出願の実施形態であり、本出願を限定するとは意図されない。当業者にとって、本出願には様々な修正および変形があってよい。本出願の趣旨および原理から逸脱することなくなされるいかなる修正、等価な置換、改善等もすべて本出願の請求項の範囲内に納まるはずである。
401 単語分割モジュール、402 決定モジュール、403 初期化モジュール、404 訓練モジュール

Claims (13)

  1. 筆画を特徴とする言語の単語のコーパスに単語分割を行って単語を得るステップと、
    前記単語に対応するnグラム筆画であって、対応単語のn個の連続する筆画を表す、nグラム筆画を決定するステップと、
    前記単語の単語ベクトルおよび前記単語に対応する前記nグラム筆画の筆画ベクトルを確立および初期化するステップと、
    前記単語分割後に得られる前記コーパス、前記単語ベクトルおよび前記筆画ベクトルに従って、前記単語ベクトルおよび前記筆画ベクトルを、ニューラルネットワークを使用して訓練するステップと
    を含む、単語ベクトル処理方法。
  2. 前記単語に対応するnグラム筆画を決定する前記ステップが詳細には、
    前記コーパスへの前記単語分割の結果に従って、前記コーパスに少なくとも一度出現する単語を決定するステップと、
    各決定した単語に以下の操作、すなわち、
    前記単語に対応するnグラム筆画を決定する操作であって、前記単語に対応する各nグラム筆画が前記単語のn個の連続する筆画を表し、nが1つの正整数または複数の異なる正整数である、操作
    を行うステップと
    を含む、請求項1に記載の方法。
  3. 前記コーパスへの前記単語分割の結果に従って、前記コーパスに少なくとも一度出現する単語を決定する前記ステップが詳細には、
    前記コーパスへの前記単語分割の前記結果に従って、設定回数以上前記コーパスに出現する単語を決定するステップであって、前記設定回数が1以上である、ステップ
    を含む、請求項2に記載の方法。
  4. 前記単語の単語ベクトルおよび前記単語に対応する前記nグラム筆画の筆画ベクトルを初期化する前記ステップが詳細には、
    ランダムな初期化方式で、または指定の確率分布に従って初期化する方式で、前記単語の前記単語ベクトルおよび前記単語に対応する前記nグラム筆画の前記筆画ベクトルを初期化し、同じnグラム筆画の筆画ベクトルが同じである、ステップ
    を含む、請求項1に記載の方法。
  5. 前記単語分割後に得られる前記コーパス、前記単語ベクトルおよび前記筆画ベクトルに従って前記単語ベクトルおよび前記筆画ベクトルを訓練する前記ステップが詳細には、
    前記単語分割後に得られる前記コーパス内の指定語および前記単語分割後に得られる前記コーパス内の前記指定語の1つ以上の文脈語を決定するステップと、
    前記指定語に対応するnグラム筆画の筆画ベクトルの他に前記文脈語の単語ベクトルに従って前記指定語と前記文脈語との間の類似度を決定するステップと、
    前記指定語と前記文脈語との間の前記類似度に従って前記文脈語の前記単語ベクトルおよび前記指定語に対応する前記nグラム筆画の前記筆画ベクトルを更新するステップと
    を含む、請求項1に記載の方法。
  6. 前記指定語と前記文脈語との間の前記類似度に従って前記文脈語の前記単語ベクトルおよび前記指定語に対応する前記nグラム筆画の前記筆画ベクトルを更新する前記ステップが詳細には、
    負サンプル語として前記単語から1つ以上の単語を選択するステップと、
    前記指定語と各負サンプル語との間の類似度を決定するステップと、
    指定の損失関数、前記指定語と前記文脈語との間の前記類似度および前記指定語と各負サンプル語との間の前記類似度に従って前記指定語に対応する損失特性評価値を決定するステップと、
    前記損失特性評価値に従って前記文脈語の前記単語ベクトルおよび前記指定語に対応する前記nグラム筆画の前記筆画ベクトルを更新するステップと
    を含む、請求項5に記載の方法。
  7. 前記損失特性評価値に従って前記文脈語の前記単語ベクトルおよび前記指定語に対応する前記nグラム筆画の前記筆画ベクトルを更新する前記ステップが詳細には、
    前記損失特性評価値に従って前記損失関数に対応する勾配を決定するステップと、
    前記勾配に従って前記文脈語の前記単語ベクトルおよび前記指定語に対応する前記nグラム筆画の前記筆画ベクトルを更新するステップと
    を含む、請求項6に記載の方法。
  8. 負サンプル語として前記単語から1つ以上の単語を選択する前記ステップが詳細には、
    前記負サンプル語として前記単語から1つ以上の単語をランダムに選択するステップ
    を含む、請求項6に記載の方法。
  9. 前記単語分割後に得られる前記コーパス、前記単語ベクトルおよび前記筆画ベクトルに従って、前記単語ベクトルおよび前記筆画ベクトルを訓練する前記ステップが詳細には、
    前記単語分割後に得られる前記コーパスを横断し、前記単語分割後に得られる前記コーパス内の各単語に以下の操作、すなわち、
    前記単語分割後に得られる前記コーパス内の前記単語の1つ以上の文脈語を決定する、操作
    を行うステップと、
    各文脈語に従って以下の操作、すなわち、
    前記単語に対応するnグラム筆画の筆画ベクトルおよび前記文脈語の単語ベクトルに従って前記単語と前記文脈語との間の類似度を決定する、操作
    を行うステップと、
    前記単語と前記文脈語との間の前記類似度に従って前記文脈語の前記単語ベクトルおよび前記単語に対応する前記nグラム筆画の前記筆画ベクトルを更新するステップと
    を含む、請求項1に記載の方法。
  10. 前記単語分割後に得られる前記コーパス内の前記単語の1つ以上の文脈語を決定する前記ステップが詳細には、
    前記単語を中心として、前記単語分割後に得られる前記コーパス内の指定数の単語の距離だけ左および/または右にスライドしてウィンドウを確立するステップと、
    前記単語の前記文脈語として前記ウィンドウ内の前記単語を除く単語を決定するステップと
    を含む、請求項9に記載の方法。
  11. 前記単語が中国語単語であり、前記単語ベクトルが前記中国語単語の単語ベクトルである、請求項1から10のいずれか一項に記載の方法。
  12. 前記単語ベクトルおよび前記筆画ベクトルを訓練するステップが反復的に実施される、請求項1に記載の方法。
  13. 筆画を特徴とする言語の単語のコーパスに単語分割を行って単語を得るように構成される単語分割モジュールと、
    前記単語に対応するnグラム筆画を決定するように構成される決定モジュールであって、前記nグラム筆画が対応単語のn個の連続する筆画を表す、決定モジュールと、
    前記単語の単語ベクトルおよび前記単語に対応する前記nグラム筆画の筆画ベクトルを確立および初期化するように構成される初期化モジュールと、
    前記単語分割後に得られる前記コーパス、前記単語ベクトルおよび前記筆画ベクトルに従って前記単語ベクトルおよび前記筆画ベクトルを訓練するように構成される訓練モジュールと
    を備える、単語ベクトル処理装置であって、
    前記単語ベクトル処理装置が、請求項1から12のいずれか一項に記載の方法を行うように構成される、単語ベクトル処理装置。
JP2019539241A 2017-01-22 2018-01-22 単語ベクトル処理方法および装置 Active JP6742653B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
CN201710045459.7 2017-01-22
CN201710045459.7A CN108345580B (zh) 2017-01-22 2017-01-22 一种词向量处理方法及装置
US15/874,725 US10430518B2 (en) 2017-01-22 2018-01-18 Word vector processing for foreign languages
US15/874,725 2018-01-18
PCT/US2018/014680 WO2018136870A1 (en) 2017-01-22 2018-01-22 Word vector processing method and apparatus

Publications (2)

Publication Number Publication Date
JP2020507155A true JP2020507155A (ja) 2020-03-05
JP6742653B2 JP6742653B2 (ja) 2020-08-19

Family

ID=62906491

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019539241A Active JP6742653B2 (ja) 2017-01-22 2018-01-22 単語ベクトル処理方法および装置

Country Status (9)

Country Link
US (2) US10430518B2 (ja)
EP (1) EP3559823A1 (ja)
JP (1) JP6742653B2 (ja)
KR (1) KR102117799B1 (ja)
CN (2) CN111611798B (ja)
PH (1) PH12019501675A1 (ja)
SG (1) SG11201906524TA (ja)
TW (1) TWI685761B (ja)
WO (1) WO2018136870A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7416665B2 (ja) 2020-06-12 2024-01-17 株式会社日立製作所 対話システム、及び対話システムの制御方法

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111611798B (zh) 2017-01-22 2023-05-16 创新先进技术有限公司 一种词向量处理方法及装置
CN110119507A (zh) * 2018-02-05 2019-08-13 阿里巴巴集团控股有限公司 词向量生成方法、装置以及设备
CN109271622B (zh) * 2018-08-08 2021-05-14 山西大学 一种基于频次分布校正的低维词表征学习方法
CN110929508B (zh) * 2018-09-20 2023-05-02 阿里巴巴集团控股有限公司 词向量的生成方法、装置和系统
CN110956034B (zh) * 2018-09-21 2023-04-11 阿里巴巴集团控股有限公司 词语的获取方法及装置、商品搜索方法
CN111274793B (zh) * 2018-11-19 2023-04-28 阿里巴巴集团控股有限公司 一种文本处理方法、装置以及计算设备
CN110059155A (zh) * 2018-12-18 2019-07-26 阿里巴巴集团控股有限公司 文本相似度的计算、智能客服系统的实现方法和装置
CN111353016B (zh) * 2018-12-24 2023-04-18 阿里巴巴集团控股有限公司 文本处理方法及装置
CN109657062A (zh) * 2018-12-24 2019-04-19 万达信息股份有限公司 一种基于大数据技术的电子病历文本解析闭环方法
CN109933686B (zh) * 2019-03-18 2023-02-03 创新先进技术有限公司 歌曲标签预测方法、装置、服务器及存储介质
CN110222144B (zh) * 2019-04-17 2023-03-28 深圳壹账通智能科技有限公司 文本内容提取方法、装置、电子设备及存储介质
WO2019137562A2 (en) 2019-04-25 2019-07-18 Alibaba Group Holding Limited Identifying entities in electronic medical records
CN110334196B (zh) * 2019-06-28 2023-06-27 同济大学 基于笔画和自注意力机制的神经网络中文问题生成系统
US10909317B2 (en) * 2019-07-26 2021-02-02 Advanced New Technologies Co., Ltd. Blockchain-based text similarity detection method, apparatus and electronic device
CN110619120B (zh) * 2019-08-12 2021-03-02 北京航空航天大学 语言模型的训练方法及装置
CN110765230B (zh) * 2019-09-03 2022-08-09 平安科技(深圳)有限公司 一种法律文本存储方法、装置、可读存储介质及终端设备
CN111221960A (zh) * 2019-10-28 2020-06-02 支付宝(杭州)信息技术有限公司 文本检测方法、相似度计算方法、模型训练方法及装置
EP4127967A4 (en) 2020-03-23 2024-05-01 Sorcero Inc FEATURE ENGINEERING WITH QUESTION GENERATION
RU2763921C1 (ru) * 2021-02-10 2022-01-11 Акционерное общество "Лаборатория Касперского" Система и способ создания эвристических правил для обнаружения мошеннических писем, относящихся к категории ВЕС-атак
TWI827409B (zh) * 2022-12-20 2023-12-21 綺源碼有限公司 自動化組織值域映射方法、電子裝置及電腦可讀媒介

Family Cites Families (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5577135A (en) * 1994-03-01 1996-11-19 Apple Computer, Inc. Handwriting signal processing front-end for handwriting recognizers
CN1061449C (zh) 1997-11-26 2001-01-31 张立龙 一种四倍键盘
CN1187677C (zh) * 2002-03-18 2005-02-02 郑方 计算机整句汉字局部笔划输入方法
CN1203389C (zh) * 2002-05-24 2005-05-25 郑方 计算机整句汉字起始四笔划输入方法
US8392446B2 (en) 2007-05-31 2013-03-05 Yahoo! Inc. System and method for providing vector terms related to a search query
CN101593270B (zh) * 2008-05-29 2012-01-25 汉王科技股份有限公司 一种手绘形状识别的方法及装置
US8175389B2 (en) * 2009-03-30 2012-05-08 Synaptics Incorporated Recognizing handwritten words
US8909514B2 (en) * 2009-12-15 2014-12-09 Microsoft Corporation Unsupervised learning using global features, including for log-linear model word segmentation
KR101252397B1 (ko) 2011-06-02 2013-04-08 포항공과대학교 산학협력단 웹을 이용한 정보 검색 방법 및 이를 사용하는 음성 대화 방법
CN103164865B (zh) * 2011-12-12 2016-01-27 北京三星通信技术研究有限公司 一种对手写输入进行美化的方法和装置
CN102750556A (zh) * 2012-06-01 2012-10-24 山东大学 一种脱机手写体汉字识别方法
CN103970798B (zh) * 2013-02-04 2019-05-28 商业对象软件有限公司 数据的搜索和匹配
CN103390358B (zh) * 2013-07-03 2015-08-19 广东小天才科技有限公司 对电子设备的字符书写操作进行规范性判断的方法及装置
WO2015145981A1 (ja) 2014-03-28 2015-10-01 日本電気株式会社 多言語文書類似度学習装置、多言語文書類似度判定装置、多言語文書類似度学習方法、多言語文書類似度判定方法、および、記憶媒体
US9524440B2 (en) * 2014-04-04 2016-12-20 Myscript System and method for superimposed handwriting recognition technology
CN103971097B (zh) * 2014-05-15 2015-05-13 武汉睿智视讯科技有限公司 一种基于多尺度笔画模型的车牌识别方法与系统
KR102396250B1 (ko) 2015-07-31 2022-05-09 삼성전자주식회사 대역 어휘 결정 장치 및 방법
US10387464B2 (en) * 2015-08-25 2019-08-20 Facebook, Inc. Predicting labels using a deep-learning model
CN105183844A (zh) * 2015-09-06 2015-12-23 国家基础地理信息中心 一种基础地理信息数据中生僻字库实现方法
US20170139899A1 (en) * 2015-11-18 2017-05-18 Le Holdings (Beijing) Co., Ltd. Keyword extraction method and electronic device
CN105488031B (zh) * 2015-12-09 2018-10-19 北京奇虎科技有限公司 一种检测相似短信的方法及装置
US9792534B2 (en) 2016-01-13 2017-10-17 Adobe Systems Incorporated Semantic natural language vector space
CN105678339B (zh) * 2016-01-15 2018-10-02 合肥工业大学 一种具有仿反馈调整机制的脱机手写体汉字认知方法
CN105740349B (zh) * 2016-01-25 2019-03-08 重庆邮电大学 一种结合Doc2vec和卷积神经网络的情感分类方法
CN105786782B (zh) * 2016-03-25 2018-10-19 北京搜狗信息服务有限公司 一种词向量的训练方法和装置
CN106095736A (zh) * 2016-06-07 2016-11-09 华东师范大学 一种领域新词抽取的方法
US9645998B1 (en) * 2016-06-12 2017-05-09 Apple Inc. Learning new words
CN106295796B (zh) * 2016-07-22 2018-12-25 浙江大学 基于深度学习的实体链接方法
CN111611798B (zh) 2017-01-22 2023-05-16 创新先进技术有限公司 一种词向量处理方法及装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7416665B2 (ja) 2020-06-12 2024-01-17 株式会社日立製作所 対話システム、及び対話システムの制御方法

Also Published As

Publication number Publication date
CN108345580B (zh) 2020-05-15
KR20190107033A (ko) 2019-09-18
CN111611798B (zh) 2023-05-16
EP3559823A1 (en) 2019-10-30
CN111611798A (zh) 2020-09-01
TWI685761B (zh) 2020-02-21
TW201828105A (zh) 2018-08-01
US20200134262A1 (en) 2020-04-30
CN108345580A (zh) 2018-07-31
SG11201906524TA (en) 2019-08-27
JP6742653B2 (ja) 2020-08-19
KR102117799B1 (ko) 2020-06-02
PH12019501675A1 (en) 2020-03-02
US10430518B2 (en) 2019-10-01
US10878199B2 (en) 2020-12-29
US20180210876A1 (en) 2018-07-26
WO2018136870A1 (en) 2018-07-26

Similar Documents

Publication Publication Date Title
JP2020507155A (ja) 単語ベクトル処理方法および装置
US10789529B2 (en) Neural network data entry system
TWI701588B (zh) 詞向量處理方法、裝置以及設備
CN108874765B (zh) 词向量处理方法及装置
TWI689831B (zh) 詞向量產生方法、裝置以及設備
US10824819B2 (en) Generating word vectors by recurrent neural networks based on n-ary characters
CN107402945A (zh) 词库生成方法及装置、短文本检测方法及装置
CN107423269B (zh) 词向量处理方法及装置
JP2018142188A (ja) 解析プログラム、解析方法および解析装置
US10846483B2 (en) Method, device, and apparatus for word vector processing based on clusters
CN107247704B (zh) 词向量处理方法、装置以及电子设备
CN107329964A (zh) 一种文本处理方法及装置
CN107562715B (zh) 词向量处理方法、装置以及电子设备
CN107577658B (zh) 词向量处理方法、装置以及电子设备
TWI705378B (zh) 針對rpc資訊的向量處理方法、裝置以及設備
CN107562716A (zh) 词向量处理方法、装置以及电子设备
CN111091001A (zh) 一种词语的词向量的生成方法、装置及设备
CN107844472B (zh) 词向量处理方法、装置以及电子设备
US20230297777A1 (en) Personalized natural language processing system
Giles The majorization minimization principle and some applications in convex optimization
CN106802952A (zh) 海量数据的处理方法、提取方法以及处理装置

Legal Events

Date Code Title Description
A529 Written submission of copy of amendment under article 34 pct

Free format text: JAPANESE INTERMEDIATE CODE: A529

Effective date: 20190918

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190918

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191106

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20191106

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20191113

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200306

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200323

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200508

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200629

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200722

R150 Certificate of patent or registration of utility model

Ref document number: 6742653

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250