JP2022050622A

JP2022050622A - 分野フレーズマイニング方法、装置及び電子機器

Info

Publication number: JP2022050622A
Application number: JP2022004275A
Authority: JP
Inventors: 細軍 ▲ゴン▼; Xijun Gong; ▲ジャオ▼ 劉; Jao Ryu; 睿李; Rui Li; 瑞鋒李; Ruifeng Li; 海浩唐; Haihao Tang
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-03-23
Filing date: 2022-01-14
Publication date: 2022-03-30
Anticipated expiration: 2042-01-14
Also published as: JP7351942B2; CN112818686A; KR20220010045A; US20220138424A1; CN112818686B

Abstract

【課題】分野フレーズの効率及び正確性を向上させるマイニング方法、装置及び電子機器を提供する。
【解決手段】方法は、ターゲットテキスト内の分野フレーズであって、ターゲットテキストの属する分野におけるフレーズとなる分野フレーズに対し、単語ベクトル変換を行って第一単語ベクトルを獲得し、ターゲットテキスト内の未知フレーズに対し、単語ベクトル変換を行って第二単語ベクトルを獲得し、第一単語ベクトルと前記第二単語ベクトルとによって形成された単語ベクトル空間を取得し、単語ベクトル空間内の、第二単語ベクトルの周囲に位置する所定の数のターゲット単語ベクトルを認識し、所定の数のターゲット単語ベクトルと第二単語ベクトルとの間の類似度値に基づいて、未知フレーズがターゲットテキストの属する分野のフレーズであるかどうかを確定する。
【選択図】図１

Description

本開示は、コンピュータ技術の分野、特に言語処理技術の分野に関し、具体的には、分野フレーズマイニング方法、装置及び電子機器に関する。

分野フレーズは、分野の特性を表すことができるとともに、他の分野の特徴と区別することができるため、分野フレーズのマイニングは、文字情報処理における重要な基礎作業の１つになっている。一方で、当今のインターネット技術の急速な発展に伴い、ネチズンのオーサリングコンテンツが広くマイニング及び伝播され、新しいフレーズや語彙も絶えずに出現しており、分野フレーズのマイニングは、コンテンツマイニングの分野において、重要な作業の１つになってきた。

解決しようとする課題

本開示は、分野フレーズマイニング方法、装置及び電子機器を提供する。

本開示の第一局面によれば、ターゲットテキスト内の分野フレーズであって、前記ターゲットテキストの属する分野におけるフレーズとなる分野フレーズに対し、単語ベクトル変換を行って第一単語ベクトルを獲得し、前記ターゲットテキスト内の未知フレーズに対し、単語ベクトル変換を行って第二単語ベクトルを獲得することと、前記第一単語ベクトルと前記第二単語ベクトルとによって形成された単語ベクトル空間を取得し、前記単語ベクトル空間内の、前記第二単語ベクトルの周囲に位置する所定の数のターゲット単語ベクトルを認識することと、前記所定の数のターゲット単語ベクトルと前記第二単語ベクトルとの間の類似度値に基づいて、前記未知フレーズが前記ターゲットテキストの属する分野のフレーズであるかどうかを確定することと、を含む分野フレーズマイニング方法を提供している。

本開示の第二局面によれば、ターゲットテキスト内の分野フレーズであって、前記ターゲットテキストの属する分野におけるフレーズとなる分野フレーズに対し、単語ベクトル変換を行って第一単語ベクトルを獲得し、前記ターゲットテキスト内の未知フレーズに対し、単語ベクトル変換を行って第二単語ベクトルを獲得するための変換モジュールと、前記第一単語ベクトルと前記第二単語ベクトルとによって形成された単語ベクトル空間を取得し、前記単語ベクトル空間内の、前記第二単語ベクトルの周囲に位置する所定の数のターゲット単語ベクトルを認識するための認識モジュールと、前記所定の数のターゲット単語ベクトルと前記第二単語ベクトルとの間の類似度値に基づいて、前記未知フレーズが前記ターゲットテキストの属する分野のフレーズであるかどうかを確定するための確定モジュールと、を備える分野フレーズマイニング装置を提供している。

本開示の第三局面によれば、少なくとも１つのプロセッサと、該少なくとも１つのプロセッサと通信接続されたメモリと、を備える電子機器であって、前記メモリには、前記少なくとも１つのプロセッサによって実行され得る命令が記憶されており、前記命令が前記少なくとも１つのプロセッサによって実行されることで、前記少なくとも１つのプロセッサが第一局面に記載の方法を実行可能となる電子機器を提供している。

本開示の第四局面によれば、コンピュータ命令を記憶した非一時的なコンピュータ読取可能な記憶媒体であって、前記コンピュータ命令は、第一局面に記載の方法をコンピュータに実行させるためのものである非一時的なコンピュータ読取可能な記憶媒体を提供している。

本開示の第五局面によれば、コンピュータプログラムを含むコンピュータプログラム製品であって、前記コンピュータプログラムがプロセッサによって実行されると、第一局面に記載の方法が実現されるコンピュータプログラム製品を提供している。

本開示に係る技術案によれば、第二単語ベクトルの周囲における所定の数の第二単語ベクトルを認識しており、これは、ノイズがクラスタ内に加えられることでノイズが拡大されてしまうという問題を回避されるように、クラスタリング過程に制約条件を加えていることに相当するため、未知フレーズの認識判断の正確性を向上させることができる。

理解されないのは、この部分で説明された内容は、本開示の実施例における肝心又は重要な特徴を特定することを意図せず、本開示の範囲を制限するためのものでもない。本開示の他の特徴は、以下の説明により、理解され易くなるであろう。

図面は、本技術案をよりよく理解するためのものであり、本開示に対する制限を構成するものではない。

図１は、本開示の一実施例による分野フレーズマイニング方法のフローチャートである。図２は、本開示に適用可能な分野フレーズマイニングモデルの構造図である。図３は、本開示に適用可能な分野フレーズマイニングモデルのサンプル構築の模式図である。図４は、本開示の一実施例による分野フレーズマイニング装置の構造図である。図５は、本開示の実施例に係る分野フレーズマイニング方法を実現するための電子機器のブロック図である。

以下、図面を参照して本開示の例示的な実施例を説明する。理解を助けるために、その中には、本開示の実施例の様々な詳細を含むが、これらの詳細は、単に例示的なものであると理解されたい。したがって、当業者であれば、本開示の範囲及び精神から逸脱することなく、本明細書に記載の実施例に対して様々な変更及び修正を加えることができると認識すべきである。同様に、説明の明確化及び簡素化のために、以下の説明では、周知の機能及び構造についての記載が省略される。

本開示は、分野フレーズマイニング方法を提供している。

図１を参照して、図１は、本開示の一実施例による分野フレーズマイニング方法のフローチャートである。前記方法は、図１に示すように、以下のステップＳ１０１～Ｓ１０３を含む。

ステップＳ１０１は、ターゲットテキスト内の分野フレーズであって、前記ターゲットテキストの属する分野におけるフレーズとなる分野フレーズに対し、単語ベクトル変換を行って第一単語ベクトルを獲得し、前記ターゲットテキスト内の未知フレーズに対し、単語ベクトル変換を行って第二単語ベクトルを獲得することである。

説明すべきなのは、本開示の実施例による分野フレーズマイニング方法は、例えば携帯電話、タブレットパソコン、ノートブックコンピュータ、デスクトップコンピュータ等の電子機器に適用され得る。

選択的に、テキストの属する分野は、異なる分類規則に従って区分してもよい。例えば、学科に従って区分してもよく、一例として、テキストの属する分野には、医学、数学、物理、文学等が含まれ得る。又は、ニュースの属性に従って区分してもよく、一例として、テキストの属する分野には、軍事、経済、政治、スポーツ、エンターテインメント等が含まれ得る。又は、テキストの属する分野は、他の区分方式とされてもよいが、本開示では、特に限定しない。

本開示の実施例において、前記ステップＳ１０１の前には、ターゲットテキストを取得し、前記ターゲットテキストの属する分野を確定することと、前記ターゲットテキスト内の分野フレーズ及び未知フレーズを取得することとを更に含んでもよい。

選択的に、前記ターゲットテキストは、ネットワークダウンロードに基づいて電子機器によって獲得されたものであってもよいし、電子機器によって既に格納されたテキストであってもよく、更に、電子機器によってオンラインで認識されたテキストであってもよい。例えば、前記ターゲットテキストは、ネットワークダウンロードに基づいて電子機器によって得られた学術論文や、電子機器上で現在動作中のアプリケーションプログラムインターフェースに表示されているスポーツニュース等であり得る。

さらに、電子機器は、ターゲットテキストを取得した後、前記ターゲットテキストの属する分野を確定する。選択的に、電子機器は、ターゲットテキストに対してキーワード認識を行うことで、キーワードによりターゲットテキストの属する分野を確定してもよい。例えば、ターゲットテキストが医学類学術論文であれば、当該論文のキーワードを認識することで、当該論文の属する分野が医学であると確定する。

本開示の実施例において、電子機器は、ターゲットテキストの属する分野を確定した後、更にターゲットテキスト内の分野フレーズ及び未知フレーズを取得する。ここで、前記分野フレーズは、前記ターゲットテキストの属する分野におけるフレーズであり、前記未知フレーズは、前記ターゲットテキストの属する分野に属しているかどうかを判断できないフレーズである。例えば、ターゲットテキストが医学類学術論文であれば、ターゲットテキストの属する分野は医学となり、当該ターゲットテキストに含まれる「ワクチン」や「慢性疾患」等のフレーズは、ターゲットテキストの属する分野におけるフレーズに属し、当該ターゲットテキストに現れる「高標準、塩要求」、「声もたてないで気く」等、医学分野に属しているかどうかを確定できないフレーズも、未知フレーズとして区分可能となる。こうして、ターゲットテキストの属する分野に基づいて、ターゲットテキスト内のフレーズに対し、ターゲットを絞るような区分を行うこともできる。

選択的に、ターゲットテキストを取得した後、電子機器は、更にターゲットテキストに対して、単語分割や単語選別等の前処理を行ってもよい。理解できるように、ターゲットテキストは、若干の語句で構成されることが一般的であり、この場合、ターゲットテキスト内の語句に対して単語選別を行ってもよく、例えば、「私たち」、「貴方たち」、「の」、「美しい」等の通常単語や形容詞を取り除いてから、単語分割処理を行い、若干のフレーズを得て、更に、これらのフレーズが分野フレーズであるか、それとも未知フレーズであるかを認識してもよい。前記単語分割には、特定の単語分割ツール定義ライブラリを持たせていてもよく、選択的に、統計的相互情報、左右の情報エントロピーに基づいて新しい単語を選別して、単語分割ツール自定義ライブラリ内に追加してもよい。

理解できるように、ターゲットテキストに対して単語分割や単語選別等の前処理を行うことで、通常単語や形容詞による単語分割への干渉を回避でき、単語分割処理の正確度の向上に寄与し、ターゲットテキストの分野フレーズ及び未知フレーズを得ることもできる。説明すべきなのは、テキストに対する単語分割処理については、関連技術を参照でき、本開示では、単語分割処理の具体的な原理を詳しく繰り返して述べない。

本開示の実施例において、ターゲットテキストの分野フレーズ及び未知フレーズを取得した後、それぞれ前記分野フレーズ及び未知フレーズに対して単語ベクトル変換を行い、前記分野フレーズに対応する第一単語ベクトル、及び、前記未知フレーズに対応する第二単語ベクトルを得る。選択的に、前記単語ベクトル変換とは、単語をベクトル形式に変換して表現することを指し、例えば、ｗｏｒｄ２ｖｅｃ（ｗｏｒｄｔｏｖｅｃｔｏｒ）方式に基づいて実現してもよい。

説明すべきなのは、分野フレーズが複数の場合、第一単語ベクトルも複数となり、１つの分野フレーズについては、単語ベクトル変換を経て、それに対応する第一単語ベクトルが得られる。つまり、第一単語ベクトルの数は、分野フレーズの数と同じであり、１つの分野フレーズは、１つの第一単語ベクトルに対応する。同様に、第二単語ベクトルの数も、未知フレーズの数と同じであり、１つの未知フレーズは、１つの第二単語ベクトルに対応する。

ステップＳ１０２は、前記第一単語ベクトルと前記第二単語ベクトルとによって形成された単語ベクトル空間を取得し、前記単語ベクトル空間内の、前記第二単語ベクトルの周囲に位置する所定の数のターゲット単語ベクトルを認識することである。

本開示の実施例において、ターゲットテキスト内の分野フレーズ及び未知フレーズに対して単語ベクトル変換を行って、第一単語ベクトル及び第二単語ベクトルが得られると、第一単語ベクトルと第二単語ベクトルとによって形成された単語ベクトル空間を得ることができ、第一単語ベクトル及び第二単語ベクトルが当該単語ベクトル空間内に位置することになり、この場合、第二単語ベクトルの周囲における所定の数のターゲット単語ベクトルを認識する。例えば、所定の数が１０とされると、第二単語ベクトルからの距離が最も短い１０個のターゲット単語ベクトルを取得する。ここで、前記所定の数は、電子機器によって事前に設定されてもよく、又は、ユーザ操作に基づいて変更されてもよい。

説明すべきなのは、本開示において、何れか１つの第二単語ベクトルの周囲における所定の数のターゲット単語ベクトルを取得してもよく、又は、各々の第二単語ベクトルの周囲における所定の数のターゲット単語ベクトルを取得してもよい。前記ターゲット単語ベクトルは、第一単語ベクトル、第二単語ベクトル、及び、通常フレーズを変換して得られた第三単語ベクトルを含んでもよく、又は、前記ターゲット単語ベクトルは、第一単語ベクトル及び第三単語ベクトルのみを含んでもよい。

ステップＳ１０３は、前記所定の数のターゲット単語ベクトルと前記第二単語ベクトルとの間の類似度値に基づいて、前記未知フレーズが前記ターゲットテキストの属する分野のフレーズであるかどうかを確定することである。

本開示の実施例において、第二単語ベクトルの周囲における所定の数のターゲット単語ベクトルが確定された後、各々のターゲット単語ベクトルと第二単語ベクトルとの類似度値を計算し、計算された類似度値に基づいて、第二単語ベクトルに対応する未知フレーズが前記ターゲットテキストの属する分野のフレーズであるかどうかを確定してもよい。

例えば、ターゲット単語ベクトルの所定の数が１０であると仮定すると、各々のターゲット単語ベクトルと第二単語ベクトルとの間の類似度値が計算されるため、類似度値が１０個得られるようになり、これら１０個の類似度値の平均値を計算し、平均値の大きさに基づいて、未知フレーズが前記ターゲットテキストの属する分野のフレーズであるかどうかを確定してもよく、又は、これら１０個の類似度値総和を求め、求められた総和の大きさに基づいて、未知フレーズが前記ターゲットテキストの属する分野のフレーズであるかどうかを確定してもよい。

理解できるように、前記所定の数のターゲット単語ベクトルと前記第二単語ベクトルとの間の類似度値に基づけば、前記未知フレーズが前記ターゲットテキストの属する分野のフレーズであるか、或いは、前記未知フレーズが前記ターゲットテキストの属する分野のフレーズではないという２つの結果を得ることができる。こうして、ターゲットテキスト内の、ターゲットテキストの属する分野に属しているフレーズをマイニングすることができ、ひいては、ターゲットテキストの属する分野の分野フレーズを拡充することもできる。

本開示の実施例において、フレーズを単語ベクトルに変換して、単語ベクトル間の類似度値により、未知フレーズがターゲットテキストの属する分野のフレーズに属するかどうかを確定しており、つまり、クラスタリングの方式で未知フレーズの認識判断を行っている。その中で、第二単語ベクトルの周囲における所定の数の第二単語ベクトルを認識しており、これは、ノイズがクラスタ内に加えられることでノイズが拡大されてしまうという問題を回避されるように、クラスタリング過程に制約条件を加えていることに相当するため、未知フレーズの認識判断の正確性を向上させることができ、しかも、人間の主観的な経験に基づいて未知フレーズを注記者によって判断する必要もなく、人間の主観的な経験による影響が回避され、人力が節約されるとともに、未知フレーズの認識判断の正確性も向上される。

選択的に、前記方法は、前記第一単語ベクトルによって形成された第一クラスタを取得し、所定の通常フレーズを第三単語ベクトルに変換して形成された第二クラスタを取得することと、前記第二単語ベクトルと前記第一クラスタのクラスタ中心との間の第一距離を取得するとともに、前記第二単語ベクトルと前記第二クラスタのクラスタ中心との間の第二距離を取得することとを更に含んでもよく、この場合、前記の前記単語ベクトル空間内の、前記第二単語ベクトルの周囲に位置する所定の数のターゲット単語ベクトルを認識することは、前記第一距離が前記第二距離よりも小さい場合、前記単語ベクトル空間内の、前記第二単語ベクトルの周囲に位置する所定の数のターゲット単語ベクトルを認識することを含む。

理解できるように、ターゲットテキストには、確定可能な分野フレーズに加えて、例えば「私たち」、「貴方たち」、「偉い」、「美しい」等の通常単語や形容詞も含まれ、本開示の実施例では、このようなフレーズが通常フレーズと呼ばれる。ここで、前記所定の通常フレーズは、電子機器によって事前に格納及び設定されたものであり、ターゲットテキストから認識される通常フレーズではない。

本開示の実施例において、前記単語ベクトル空間は、第一単語ベクトル及び第二単語ベクトルだけでなく、所定の通常フレーズに対する単語ベクトル変換を経て得られた第三単語ベクトルも含むのであれば、第一単語ベクトルによって形成された第一クラスタ、及び、第三単語ベクトルによって形成された第二クラスタが取得され、ひいては、第一クラスタのクラスタ中心、及び、第二クラスタのクラスタ中心も取得できる。ここで、前記クラスタ中心は、クラスタに含まれる全ての単語ベクトルの平均値であってもよく、更に、クラスタ中心もベクトル形式となる。

選択的に、第二単語ベクトルと第一クラスタのクラスタ中心との間の第一距離を計算するとともに、第二単語ベクトルと第二クラスタのクラスタ中心との間の第二距離を計算する。説明すべきなのは、この場合、何れか１つの第二単語ベクトルが第二ターゲット単語ベクトルとして選択されて、当該第二ターゲット単語ベクトルと第一クラスタのクラスタ中心との間の第一距離が計算されるとともに、当該第二ターゲット単語ベクトルと第二クラスタのクラスタ中心との間の第二距離が計算されることになる。

さらに、第一距離と第二距離との大きさを比較して、第一距離が第二距離よりも小さければ、第二単語ベクトルが第一クラスタのクラスタ中心の方により近いことを示し、第一クラスタが第一単語ベクトルによって形成されたものであるため、第二単語ベクトルが、第一単語ベクトルに対応する分野フレーズの方により近いと考えることができる。この場合、前記単語ベクトル空間内の、前記第二単語ベクトルの周囲に位置する所定の数のターゲット単語ベクトルを認識し、前記所定の数のターゲット単語ベクトルと前記第二単語ベクトルとの間の類似度値に基づいて、前記未知フレーズが前記ターゲットテキストの属する分野のフレーズであるかどうかを確定することになる。

説明すべきなのは、第一距離が第二距離よりも大きければ、第二単語ベクトルが第二クラスタのクラスタ中心の方により近いことを示し、第二クラスタが、所定の通常フレーズを第三単語ベクトルに変換して形成されたものであるため、第二単語ベクトルが通常分野フレーズである可能性が高いと考えることができる。この場合、未知フレーズは、通常分野フレーズである可能性が高く、前記ターゲットテキストの属する分野のフレーズに属する可能性が低いため、第二単語ベクトルの周囲におけるターゲット単語ベクトルを認識する必要がなくなり、その後の未知フレーズがターゲットテキストの属する分野に属しているかどうかの認識判断が行われなくても構わない。

本開示の実施例において、第二単語ベクトルと第一クラスタのクラスタ中心との間の第一距離、及び、第二単語ベクトルと第二クラスタのクラスタ中心との間の第二距離をそれぞれ取得して、第一距離と第二距離との大きさを比較することで、第二単語ベクトルの周囲におけるターゲット単語ベクトルを認識するかどうかを確定している。こうして、第二単語ベクトルが第一クラスタのクラスタ中心の方により近い場合に限って、更に未知フレーズがターゲットテキストの属する分野のフレーズであるかどうかを判断することになり、未知フレーズの判断の正確性がより一層に向上される。

選択的に、前記ステップＳ１０３は、各々の前記ターゲット単語ベクトルと前記第二単語ベクトルとの間のターゲット類似度値を取得し、前記所定の数のターゲット類似度値を得て、前記所定の数のターゲット類似度値の類似度値総和を取得することと、前記類似度値総和が所定の閾値よりも大きい場合、前記未知フレーズが前記ターゲットテキストの属する分野のフレーズであると確定することと、前記類似度値総和が前記所定の閾値よりも小さい場合、前記未知フレーズが前記ターゲットテキストの属する分野のフレーズではないと確定することとを含んでもよい。

本開示の実施例において、所定の数のターゲット単語ベクトルを取得した後、各々のターゲット単語ベクトルと第二単語ベクトルとの間のターゲット類似度値を計算しており、こうして、所定の数のターゲット類似度値が得られ、所定の数のターゲット類似度値総和が求められることになる。例えば、電子機器は、第二単語ベクトルからの距離が最も短い１０個のターゲット単語ベクトルを取得し、各々のターゲット単語ベクトルと第二単語ベクトルとの間のターゲット類似度値をそれぞれ計算してもよく、こうして、ターゲット類似度値が１０個得られ、これら１０個のターゲット類似度値総和を計算すると、類似度値総和が得られる。

さらに、類似度値総和と所定の閾値との大きさを比較して、未知フレーズがターゲットテキストの属する分野のフレーズであるかどうかを確定する。類似度値総和が所定の閾値よりも大きければ、前記未知フレーズが前記ターゲットテキストの属する分野のフレーズであると確定され、類似度値総和が所定の閾値よりも小さければ、前記未知フレーズが前記ターゲットテキストの属する分野のフレーズではないと確定される。

理解できるように、類似度値総和は、各々のターゲット単語ベクトルと第二単語ベクトルとの間の類似度値に基づいて得られたものである一方で、ターゲット単語ベクトルは、第二単語ベクトルの方から近い単語ベクトルであり、両者の間の類似度値が大きいほど、第二単語ベクトルとターゲット単語ベクトルとが同類フレーズに属する可能性が高いことを示している。ここで、所定の閾値は、事前に設定された閾値であり、所定の閾値は、第一単語ベクトルに関連するものであってもよく、例えば、所定の閾値が第一単語ベクトルのベクトル平均値とされ、類似度値総和が所定の閾値よりも大きい場合は、第二単語ベクトルと第一単語ベクトルとが比較的に類似することを示しているため、未知フレーズがターゲットテキストの属する分野のフレーズであると確定され、類似度値総和が所定の閾値よりも小さい場合は、第二単語ベクトルと第一単語ベクトルとがあまり類似しないことを示しているため、未知フレーズがターゲットテキストの属する分野のフレーズではないと確定される。こうして、人間の経験による判断ではなく、類似度値と閾値との比較により、未知フレーズがターゲットテキストの属する分野のフレーズであるかどうかを確定でき、未知フレーズの認識判断の正確性が効果的に向上される。また、このような方式によれば、未知フレーズの認識判断の効率をより正確かつ効果的に向上させることもでき、ひいては、ターゲットテキストの属する分野のフレーズに対するマイニング効率を向上させることもできる。

選択的に、前記所定の閾値は、前記分野フレーズの数及び所定の通常フレーズの数に関連するものである。つまり、分野フレーズの数及び所定の通常フレーズの数の何れも、所定の閾値の大きさに影響し、例えば、分野フレーズの数が多くて所定の通常フレーズの数が少ないほど、所定の閾値が大きくなる。こうして、未知フレーズの認識判断は、分野フレーズの数及び所定の通常フレーズの数にも関連することになり、未知フレーズの判別の正確性が向上される。

例えば、未知フレーズがＡとされ、当該未知フレーズＡに対して単語ベクトル変換を行って第二単語ベクトルが得られ、単語ベクトル空間内の、当該第二単語ベクトルからの距離が最も短いｎ個のターゲット単語ベクトルが取得されたと仮定すると、各々のターゲット単語ベクトルと第二単語ベクトルとの類似度値を計算し、獲得されたｎ個の類似度値総和を求め、類似度値総和を得て、当該類似度値総和と所定の閾値との大きさを比較することになる。具体的な計算式は、以下の通りである。

ここで、ｐｓｕｍ（Ｘ）は、ｎ個のターゲット単語ベクトルと第二単語ベクトルとの間の類似度値総和を表し、Ｐｉは、ｎ個のターゲット単語ベクトルのうち、対応するｉ個目のターゲット単語ベクトルと第二単語ベクトルとの間の類似度を表し、ｒ（Ｘ）は、第二単語ベクトル及びその周囲における第一単語ベクトルの状況と、これらの第一単語ベクトルと第一クラスタのクラスタ中心との距離の状況を表し、ｃｅｎｔｅｒｐｏｓは、第一クラスタのクラスタ中心に対応するベクトルを表し、ｃｏｓｉｎｅ（ｘ，ｃｅｎｔｅｒｐｏｓ）は、第二単語ベクトルと第一クラスタのクラスタ中心との間の距離を表し、ｃｅｎｔｅｒｎｅｇは、第二クラスタのクラスタ中心に対応するベクトルを表し、ｃｏｓｉｎｅ（ｘ，ｃｅｎｔｅｒｎｅｇ）は、第二単語ベクトルと第二クラスタのクラスタ中心との間の距離を表す。

説明すべきなのは、ターゲット単語ベクトルが第一単語ベクトルの場合、
ｒ（ｘ）＝ｃｏｓｉｎｅ（ｘ，ｃｅｎｔｅｒｐｏｓ）となり、ターゲット単語ベクトルが第三単語ベクトルの場合、ｒ（ｘ）＝－１０＊ｃｏｓｉｎｅ（ｘ，ｃｅｎｔｅｒｎｅｇ）となり、ターゲット単語ベクトルが第二単語ベクトルの場合、ｒ（ｘ）＝０となる。

選択的に、前記所定の閾値は、次の式に基づく計算で得られたものであってもよい。

ここで、ｋｔｈ（ｘ）は、所定の閾値を表し、ｐｏｓｓｉｚｅは、分野フレーズの数を表し、ｎｅｇｓｉｚｅは、所定の通常フレーズの数を表し、ｔｏｔａｌｓａｍｐｌｅは、未知フレーズと、分野フレーズと、所定の通常フレーズの総数を表し、ｔｔｈ（ｘ）は、ペナルティ係数を表す。

選択的に、ターゲット単語ベクトルが第一単語ベクトルの場合、

となり、ターゲット単語ベクトルが第三単語ベクトルの場合、

となる。こうして、所定の閾値は、分野フレーズの数及び所定の通常フレーズの数の何れにも関連するものとされ、例えば、ターゲット単語ベクトルが第一単語ベクトルの場合、分野フレーズの割合が大きいほど、ペナルティ係数が大きくなり、ひいては、所定の閾値も大きくなる。このような設定によれば、更に分野フレーズの数及び所定の通常フレーズの数に基づいて、本開示によるクラスタリングスキームを制約することができ、つまり、未知フレーズがターゲットテキストの属する分野に属しているかの判別に影響を与えることになる。

説明すべきなのは、本開示の実施例において、未知フレーズに対する判別を完了した後、改めて上記ステップに基づいて、ターゲットテキストに対して未知フレーズの判別をもう一度行ってもよく、これは、ターゲットテキストの属する分野に属しているフレーズをより多くマイニングして、ターゲットテキストの属する分野内のフレーズの数を拡充し、テキストコンテンツのリコールやマルチレベルのラベリング等、下流のタスクの実現をより好適に支援するためである。

選択的に、本開示の実施例による方法は、前記未知フレーズが前記ターゲットテキストの属する分野のフレーズであると確定した場合、前記未知フレーズを、分野フレーズマイニングモデルの訓練用ポジティブサンプルであって、単語ベクトル変換が行われると、第一クラスタに属するようになる訓練用ポジティブサンプルとすることと、前記未知フレーズが前記ターゲットテキストの属する分野のフレーズではないと確定した場合、前記未知フレーズを、分野フレーズマイニングモデルの訓練用ネガティブサンプルであって、単語ベクトル変換が行われると、第二クラスタに属するようになる訓練用ネガティブサンプルとすることとを更に含む。

本開示の実施例において、未知フレーズに対する認識を完了すると、認識された未知フレーズを、分野フレーズマイニングモデルの訓練用ポジティブサンプル又は訓練用ネガティブサンプルとして、更に分野フレーズマイニングモデルのサンプルの数を拡充することで、分野フレーズマイニングモデルに対する訓練をより好適に実現してもよい。

説明すべきなのは、前記分野フレーズマイニングモデルは、ニューラルネットワークモデルであり、前記分野フレーズマイニングモデルの訓練方式については、関連技術におけるニューラルネットワークモデルの訓練方式を参照でき、本開示では、これについて繰り返して述べない。

選択的に、前記分野フレーズマイニングモデルは、ツインネットワーク構造モデルである。図２に示すように、ツインネットワーク構造モデルには、３タワーの構造が使用されるが、各タワーのネットワーク層パラメータが共有される。その中で、ａｎｃｈｏｒは、ターゲットサンプルを表し、Ｒ－Ｐｏｓ（ｒｅｌａｔｉｖｅｐｏｓｉｔｉｖｅｓａｍｐｌｅ）は、ターゲットサンプルペアの同類サンプルの中心を表し、ターゲットサンプルが訓練用ポジティブサンプル又は分野フレーズであれば、相対するサンプルは、訓練用ポジティブサンプルとなり、ターゲットサンプルが訓練用ネガティブサンプル又は所定の通常フレーズであれば、相対するサンプルは、訓練用ネガティブサンプルとなる。Ｒ－Ｎｅｇ（ｒｅｌａｔｉｖｅｎｅｇａｔｉｖｅｓａｍｐｌｅ）は、ターゲットサンプルに対応する反対サンプルの中心を表し、ターゲットサンプルが訓練用ポジティブサンプルであれば、相対するサンプルは、訓練用ネガティブサンプルとなり、ターゲットサンプルが訓練用ネガティブサンプルであれば、相対するサンプルは、訓練用ポジティブサンプルとなる。Ｒ（ａｎｃｈｏｒ、Ｒ－＊）は、余弦類似度（ｃｏｓｉｎｅｓｉｍｉｌａｒｉｔｙ）を表す。余弦類似度の表現式は、以下の通りである。

ここで、ｃｏｓｉｎｅ（Ａ，Ｂ）は、サンプルＡとサンプルＢとの間の余弦類似度を表し、前記分野フレーズマイニングモデルのネットワーク層には、ｒｕｌｅ活性化関数が使用され、ネットワークパラメータＷ＝｛ｗ１，ｗ２，ｗ３｝、Ｂ＝｛ｂ１，ｂ２，ｂ３｝であり、初期化には、一様分布（ｕｎｉｆｏｒｍｄｉｓｔｒｉｂｕｔｉｏｎ）が使用され、一様分布の値範囲は、［－ｐａｒａｍ＿ｒａｎｇｅ，ｐａｒａｍ＿ｒａｎｇｅ］であり、

ｏｕｔｐｕｔｓｉｚｅは、出力パラメータを表し、ｉｎｐｕｔｓｉｚｅは、入力パラメータを表す。

選択的に、前記分野フレーズマイニングモデルは、Ｔｒｉｐｌｅｔ－ＣｅｎｔｅｒＬｏｓｓを損失関数の主体として使用してもよく、ここで、Ｔｒｉｐｌｅｔ－ＣｅｎｔｅｒＬｏｓｓは、次のような準則に従ってもよく、即ち、近似サンプル間の距離が小さいほど好ましくなり、非近似サンプル間の距離が閾値よりも小さければ、相互排除により、両者の距離を当該閾値以上にする。損失関数の計算方式は、以下の通りである。

ここで、ｍａｒｇｉｎは閾値を表し、ｃｏｓｉｎｅ（ａｎｃｈｏｒ，ＰＲｏｓ）は、ターゲットサンプルと訓練用ポジティブサンプルとの間の余弦類似度を表し、ｃｏｓｉｎｅ（ａｎｃｈｏｒ，ＲＮｅｇ）は、ターゲットサンプルと訓練用ネガティブサンプルとの間の余弦類似度を表す。

例えば、前記分野フレーズマイニングモデルのサンプル構築中には、ポジティブサンプル及びネガティブサンプルをａｎｃｈｏｒとしてトラバーサルしてもよく、ポジティブサンプルＰ＝｛ｐ１，ｐ２，…，ｐｎ｝、ネガティブサンプルＮ＝｛ｎ１，ｎ２，…，ｎｎ｝については、もしａｎｃｈｏｒがポジティブサンプルであれば、ポジティブサンプルライブラリ内の最も類似しないサンプルをＲ－Ｐｏｓとして取り、ネガティブサンプルライブラリ内の最も類似するサンプルをＮ－Ｎｅｇとして取り、もしａｎｃｈｏｒがネガティブサンプルであれば、ネガティブサンプルライブラリ内の最も類似しないサンプルをＲ－Ｐｏｓとして取り、ポジティブサンプルライブラリ内の最も類似するサンプルをＲ－Ｎｅｇとして取る。図３に示すように、ａｎｃｈｏｒは０．６７で、ポジティブサンプルである場合、ポジティブサンプルライブラリ内の最も類似しないサンプル０をＲ－Ｐｏｓとして選択し、ネガティブサンプルライブラリ内の最も類似しない－０．３をＮ－Ｎｅｇとして選択することが可能である。こうして、分野フレーズマイニングモデルのサンプル構築が完成され、更に分野フレーズマイニングモデルに対する訓練がより好適に実現され、分野フレーズマイニングモデルの正確性が向上される。

本開示は、分野フレーズマイニング装置を更に提供している。

図４を参照して、図４は、本開示の一実施例による分野フレーズマイニング装置の構造図である。前記分野フレーズマイニング装置４００は、図４に示すように、ターゲットテキスト内の分野フレーズであって、前記ターゲットテキストの属する分野におけるフレーズとなる分野フレーズに対し、単語ベクトル変換を行って第一単語ベクトルを獲得し、前記ターゲットテキスト内の未知フレーズに対し、単語ベクトル変換を行って第二単語ベクトルを獲得するための変換モジュール４０１と、前記第一単語ベクトルと前記第二単語ベクトルとによって形成された単語ベクトル空間を取得し、前記単語ベクトル空間内の、前記第二単語ベクトルの周囲に位置する所定の数のターゲット単語ベクトルを認識するための認識モジュール４０２と、前記所定の数のターゲット単語ベクトルと前記第二単語ベクトルとの間の類似度値に基づいて、前記未知フレーズが前記ターゲットテキストの属する分野のフレーズであるかどうかを確定するための確定モジュール４０３とを備える。

選択的に、前記分野フレーズマイニング装置４００は、前記第一単語ベクトルによって形成された第一クラスタを取得し、所定の通常フレーズを第三単語ベクトルに変換して形成された第二クラスタを取得するための第一取得モジュールと、前記第二単語ベクトルと前記第一クラスタのクラスタ中心との間の第一距離を取得するとともに、前記第二単語ベクトルと前記第二クラスタのクラスタ中心との間の第二距離を取得するための第二取得モジュールとを更に備え、前記認識モジュール４０２は、前記第一距離が前記第二距離よりも小さい場合、前記単語ベクトル空間内の、前記第二単語ベクトルの周囲に位置する所定の数のターゲット単語ベクトルを認識するために更に用いられる。

選択的に、前記確定モジュール４０３は、各々の前記ターゲット単語ベクトルと前記第二単語ベクトルとの間のターゲット類似度値を取得し、前記所定の数のターゲット類似度値を得て、前記所定の数のターゲット類似度値の類似度値総和を取得し、前記類似度値総和が所定の閾値よりも大きい場合、前記未知フレーズが前記ターゲットテキストの属する分野のフレーズであると確定し、前記類似度値総和が前記所定の閾値よりも小さい場合、前記未知フレーズが前記ターゲットテキストの属する分野のフレーズではないと確定するために更に用いられる。

選択的に、前記所定の閾値は、前記分野フレーズの数及び所定の通常フレーズの数に関連するものである。

選択的に、前記確定モジュール４０３は、前記未知フレーズが前記ターゲットテキストの属する分野のフレーズであると確定した場合、前記未知フレーズを、分野フレーズマイニングモデルの訓練用ポジティブサンプルであって、単語ベクトル変換が行われると、第一クラスタに属するようになる訓練用ポジティブサンプルとし、前記未知フレーズが前記ターゲットテキストの属する分野のフレーズではないと確定した場合、前記未知フレーズを、分野フレーズマイニングモデルの訓練用ネガティブサンプルであって、単語ベクトル変換が行われると、第二クラスタに属するようになる訓練用ネガティブサンプルとするために更に用いられ、ここで、前記分野フレーズマイニングモデルは、ツインネットワーク構造モデルである。

説明すべきなのは、本実施例による分野フレーズマイニング装置４００は、上記分野フレーズマイニング方法の実施例に係る全ての技術案を実現可能であるため、少なくとも上記の全ての技術的効果を実現可能であるが、ここで繰り返して述べない。

本開示の実施例によれば、本開示は、電子機器、読取可能な記憶媒体、及び、コンピュータプログラム製品を更に提供している。

図５は、本開示の実施例を実施するために使用できる例示的な電子機器５００のブロック図を模式的に示している。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークベンチ、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、及びその他の適切なコンピュータなど、様々な形態のデジタルコンピュータを表すことを目的としている。電子機器は、パーソナルデジタルアシスタント、セルラフォン、スマートフォン、ウェアラブルデバイス、及びその他の類似なコンピューティング装置など、様々な形態のモバイル装置を表すこともできる。本明細書で示されるコンポーネント、それらの接続及び関係、並びにそれらの機能は単なる例であり、本明細書で説明及び／又は要求される本開示の実現を制限することを意図するものではない。

図５に示すように、機器５００は、読取専用メモリ（ＲＯＭ）５０２に記憶されたコンピュータプログラム、又は、記憶ユニット５０８からランダムアクセスメモリ（ＲＡＭ）５０３にロードされたコンピュータプログラムに従って、各種の適切な動作及び処理を実行可能なコンピューティングユニット５０１を備える。ＲＡＭ５０３には、機器５００の操作に必要な各種のプログラム及びデータが記憶されてもよい。コンピューティングユニット５０１と、ＲＯＭ５０２とＲＡＭ５０３とは、バス５０４を介して互いに接続されている。入力／出力（Ｉ／Ｏ）インターフェース５０５も、バス５０４に接続されている。

機器５００における複数のコンポーネントは、Ｉ／Ｏインターフェース５０５に接続されており、前記複数のコンポーネントは、例えばキーボード、マウス等の入力ユニット５０６、例えば様々な類型のディスプレイ、スピーカ等の出力ユニット５０７、例えば磁気ディスク、光ディスク等の記憶ユニット５０８、及び、例えばネットワークカード、モデム、無線通信トランシーバ等の通信ユニット５０９を備える。通信ユニット５０９は、機器５００がインターネット等のコンピュータネットワーク及び／又は様々な電気通信ネットワークを介して他の機器と情報／データを交換することを可能にする。

コンピューティングユニット５０１は、処理及びコンピューティング能力を有する様々な汎用及び／又は専用処理構成要素とすることができる。コンピューティングユニット５０１のいくつかの例としては、中央処理ユニット（ＣＰＵ）、グラフィック処理ユニット（ＧＰＵ）、様々な専用人工知能（ＡＩ）コンピューティングチップ、機械学習モデルアルゴリズムを実行する様々なコンピューティングユニット、デジタル信号プロセッサ（ＤＳＰ）、及び任意の適切なプロセッサ、コントローラ、マイクロコントローラ等を含むが、これらに限定されない。コンピューティングユニット５０１は、上述した各方法及び処理、例えば分野フレーズマイニング方法を実行する。例えば、いくつかの実施例において、分野フレーズマイニング方法は、記憶ユニット５０８等の機械読取可能な媒体に有形に含まれるコンピュータソフトウェアプログラムとして実現されてもよい。いくつかの実施例において、コンピュータプログラムの一部又は全部は、ＲＯＭ５０２及び／又は通信ユニット５０９を介して機器５００にロード及び／又はインストールされてもよい。コンピュータプログラムがＲＡＭ５０３にロードされてコンピューティングユニット５０１によって実行されると、上述した分野フレーズマイニング方法の１つ又は複数のステップを実行可能となる。代替的に、他の実施例において、コンピューティングユニット５０１は、他の任意の適切な方式によって（例えば、ファームウェアを通じて）、分野フレーズマイニング方法を実行するように構成されてもよい。

本明細書において上述したシステム及び技術の様々な実装形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）、特定用途向け標準製品（ＡＳＳＰ）、システムオンチップ（ＳＯＣ）のシステム、複合プログラマブルロジックデバイス（ＣＰＬＤ）、コンピュータハードウェア、ファームウェア、ソフトウェア、及び／又はそれらの組み合わせで実現可能である。これらの様々な実施例は、少なくとも１つのプログラマブルプロセッサを備えるプログラマブルシステム上で実行及び／又は解釈可能な１つ又は複数のコンピュータプログラムで実施されてもよく、当該プログラマブルプロセッサは、ストレージシステム、少なくとも１つの入力装置、及び少なくとも１つの出力装置からデータ及び命令を受信し、データ及び命令を当該ストレージシステム、当該少なくとも１つの入力装置、及び当該少なくとも１つの出力装置に送信可能な専用又は汎用のプログラマブルプロセッサであってもよい。

本開示の方法を実施するためのプログラムコードは、１つ又は複数のプログラミング言語の任意の組み合わせで作成することが可能である。これらのプログラムコードは、汎用コンピュータ、専用コンピュータ、又は他のプログラマブルデータ処理装置のプロセッサ又はコントローラに提供されてもよく、こうした場合、プログラムコードがプロセッサ又はコントローラによって実行されると、フローチャート及び／又はブロック図に規定された機能及び／又は操作が実施される。プログラムコードは、全てマシン上で実行され、部分的にマシン上で実行され、スタンドアロンソフトウェアパッケージとして、部分的にマシン上で、部分的にリモートマシン上で実行され、又は全部でリモートマシン又はサーバ上で実行され得る。

本開示の記載において、機械読取可能な媒体は、命令実行システム、装置やデバイスによって使用されるか、或いは命令実行システム、装置やデバイスと組み合わせて使用されるプログラムを包含又は記憶可能な有形の媒体であってもよい。機械読取可能な媒体は、機械読取可能な信号媒体又は機械読取可能な記憶媒体であってもよい。機械読取可能な媒体は、電子、磁気、光学、電磁気、赤外線、又は半導体のシステム、装置やデバイス、又はこれらの任意の適切な組み合わせを含んでもよいが、それらに限定されない。機械読取可能な記憶媒体のより具体的な例としては、１つ又は複数の線による電気接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読取専用メモリ（ＲＯＭ）、消去可能なプログラマブル読取専用メモリ（ＥＰＲＯＭ又はフラッシュメモリ）、光ファイバ、ポータブルコンパクトディスク読取専用メモリ（ＣＤ－ＲＯＭ）、光学記憶機器、磁気記憶機器、又はこれらの任意の適切な組み合わせが含まれる。

ユーザとのインタラクションを提供するために、本明細書に記載のシステム及び技術は、ユーザに情報を表示するための表示装置（例えば、ＣＲＴ（陰極線管）又はＬＣＤ（液晶ディスプレイ）モニタ）と、キーボード及びポインティング装置（例えば、マウス又はトラックボール）とを有するコンピュータ上で実施されてもよく、ユーザは、当該キーボード及び当該ポインティング装置を介してコンピュータに入力を提供可能である。他の種類の装置を使用してユーザとのインタラクションを提供してもよい。例えば、ユーザに提供されるフィードバックは、任意の形式のセンシングフィードバック（例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック）であってもよく、また、任意の形式（音響入力、音声入力、又は触覚入力を含む）を用いてユーザからの入力を受信してもよい。

本明細書に記載のシステム及び技術は、バックエンドコンポーネントを備えるコンピューティングシステム（例えば、データサーバとして）、又はミドルコンポーネントを備えるコンピューティングシステム（例えば、アプリケーションサーバ）、又はフロントエンドコンポーネントを備えるコンピューティングシステム（例えば、グラフィカルユーザインターフェース又はＷｅｂブラウザを備えたユーザコンピュータ。ユーザは、当該グラフィカルユーザインターフェース又は当該Ｗｅｂブラウザを介して、ここで説明されるシステム及び技術の実施形態とインタラクションできる）、又はこのようなバックエンドコンポーネント、ミドルコンポーネント、又はフロントエンドコンポーネントの任意の組み合わせを備えるコンピューティングシステム内で実施することができる。任意の形式又は媒体のデジタルデータ通信（例えば、通信ネットワーク）によってシステムのコンポーネントを相互接続してもよい。通信ネットワークの例としては、ローカルエリアネットワーク（ＬＡＮ）、ワイドエリアネットワーク（ＷＡＮ）及びインターネットが含まれる。

コンピュータシステムは、クライアントとサーバとを備えることが可能である。一般的に、クライアントとサーバとは互いに離れており、通常は通信ネットワークを介してインタラクションする。それぞれのコンピュータで実行され且つ互いにクライアント－サーバの関係を持つコンピュータプログラムによってクライアントとサーバとの関係を生成する。

なお、上記の様々な形態のフローを使用して、ステップを並べ替え、追加又は削除可能であることを理解されたい。例えば、本開示で説明された各ステップは、並列、順次、又は異なる順序で実行可能である。本開示で掲載された技術案の望ましい結果を達成できればよく、本明細書は、これについて限定しない。

上記の具体的な実施形態は、本開示の保護範囲に対する制限を構成するものではない。当業者でれば、設計要件及び他の要因に応じて、様々な修正、組み合わせ、サブ組み合わせ、及び置き換えを行えることを理解するべきである。本開示の精神及び原則内で行われた修正、同等の置き換え、及び改善は、何れも本開示の保護範囲に含まれるものとする。

Claims

ターゲットテキスト内の分野フレーズであって、前記ターゲットテキストの属する分野におけるフレーズとなる分野フレーズに対し、単語ベクトル変換を行って第一単語ベクトルを獲得し、前記ターゲットテキスト内の未知フレーズに対し、単語ベクトル変換を行って第二単語ベクトルを獲得することと、
前記第一単語ベクトルと前記第二単語ベクトルとによって形成された単語ベクトル空間を取得し、前記単語ベクトル空間内の、前記第二単語ベクトルの周囲に位置する所定の数のターゲット単語ベクトルを認識することと、
前記所定の数のターゲット単語ベクトルと前記第二単語ベクトルとの間の類似度値に基づいて、前記未知フレーズが前記ターゲットテキストの属する分野のフレーズであるかどうかを確定することと、
を含む分野フレーズマイニング方法。
前記第一単語ベクトルによって形成された第一クラスタを取得し、所定の通常フレーズを第三単語ベクトルに変換して形成された第二クラスタを取得することと、
前記第二単語ベクトルと前記第一クラスタのクラスタ中心との間の第一距離を取得するとともに、前記第二単語ベクトルと前記第二クラスタのクラスタ中心との間の第二距離を取得することと、
を含み、
前記の前記単語ベクトル空間内の、前記第二単語ベクトルの周囲に位置する所定の数のターゲット単語ベクトルを認識することが、
前記第一距離が前記第二距離よりも小さい場合、前記単語ベクトル空間内の、前記第二単語ベクトルの周囲に位置する所定の数のターゲット単語ベクトルを認識することを含む請求項１に記載の方法。
前記の前記所定の数のターゲット単語ベクトルと前記第二単語ベクトルとの間の類似度値に基づいて、前記未知フレーズが前記ターゲットテキストの属する分野のフレーズであるかどうかを確定することが、
各々の前記ターゲット単語ベクトルと前記第二単語ベクトルとの間のターゲット類似度値を取得し、前記所定の数のターゲット類似度値を得て、前記所定の数のターゲット類似度値の類似度値総和を取得することと、
前記類似度値総和が所定の閾値よりも大きい場合、前記未知フレーズが前記ターゲットテキストの属する分野のフレーズであると確定することと、
前記類似度値総和が前記所定の閾値よりも小さい場合、前記未知フレーズが前記ターゲットテキストの属する分野のフレーズではないと確定することと、
を含む請求項１に記載の方法。
前記所定の閾値が、前記分野フレーズの数及び所定の通常フレーズの数に関連するものである請求項３に記載の方法。
前記未知フレーズが前記ターゲットテキストの属する分野のフレーズであると確定した場合、前記未知フレーズを、分野フレーズマイニングモデルの訓練用ポジティブサンプルであって、単語ベクトル変換が行われると、第一クラスタに属するようになる訓練用ポジティブサンプルとすることと、
前記未知フレーズが前記ターゲットテキストの属する分野のフレーズではないと確定した場合、前記未知フレーズを、分野フレーズマイニングモデルの訓練用ネガティブサンプルであって、単語ベクトル変換が行われると、第二クラスタに属するようになる訓練用ネガティブサンプルとすることと、
を含み、
前記分野フレーズマイニングモデルが、ツインネットワーク構造モデルである請求項１に記載の方法。
ターゲットテキスト内の分野フレーズであって、前記ターゲットテキストの属する分野におけるフレーズとなる分野フレーズに対し、単語ベクトル変換を行って第一単語ベクトルを獲得し、前記ターゲットテキスト内の未知フレーズに対し、単語ベクトル変換を行って第二単語ベクトルを獲得するための変換モジュールと、
前記第一単語ベクトルと前記第二単語ベクトルとによって形成された単語ベクトル空間を取得し、前記単語ベクトル空間内の、前記第二単語ベクトルの周囲に位置する所定の数のターゲット単語ベクトルを認識するための認識モジュールと、
前記所定の数のターゲット単語ベクトルと前記第二単語ベクトルとの間の類似度値に基づいて、前記未知フレーズが前記ターゲットテキストの属する分野のフレーズであるかどうかを確定するための確定モジュールと、
を備える分野フレーズマイニング装置。
前記第一単語ベクトルによって形成された第一クラスタを取得し、所定の通常フレーズを第三単語ベクトルに変換して形成された第二クラスタを取得するための第一取得モジュールと、
前記第二単語ベクトルと前記第一クラスタのクラスタ中心との間の第一距離を取得するとともに、前記第二単語ベクトルと前記第二クラスタのクラスタ中心との間の第二距離を取得するための第二取得モジュールと、
を備え、
前記認識モジュールが、前記第一距離が前記第二距離よりも小さい場合、前記単語ベクトル空間内の、前記第二単語ベクトルの周囲に位置する所定の数のターゲット単語ベクトルを認識するために用いられる請求項６に記載の装置。
前記確定モジュールが、
各々の前記ターゲット単語ベクトルと前記第二単語ベクトルとの間のターゲット類似度値を取得し、前記所定の数のターゲット類似度値を得て、前記所定の数のターゲット類似度値の類似度値総和を取得し、
前記類似度値総和が所定の閾値よりも大きい場合、前記未知フレーズが前記ターゲットテキストの属する分野のフレーズであると確定し、
前記類似度値総和が前記所定の閾値よりも小さい場合、前記未知フレーズが前記ターゲットテキストの属する分野のフレーズではないと確定するために用いられる請求項６に記載の装置。
前記所定の閾値が、前記分野フレーズの数及び所定の通常フレーズの数に関連するものである請求項８に記載の装置。
前記確定モジュールが、
前記未知フレーズが前記ターゲットテキストの属する分野のフレーズであると確定した場合、前記未知フレーズを、分野フレーズマイニングモデルの訓練用ポジティブサンプルであって、単語ベクトル変換が行われると、第一クラスタに属するようになる訓練用ポジティブサンプルとし、
前記未知フレーズが前記ターゲットテキストの属する分野のフレーズではないと確定した場合、前記未知フレーズを、分野フレーズマイニングモデルの訓練用ネガティブサンプルであって、単語ベクトル変換が行われると、第二クラスタに属するようになる訓練用ネガティブサンプルとするために更に用いられ、
前記分野フレーズマイニングモデルが、ツインネットワーク構造モデルである請求項６に記載の装置。
少なくとも１つのプロセッサと、
該少なくとも１つのプロセッサと通信接続されたメモリと、
を備える電子機器であって、
前記メモリには、前記少なくとも１つのプロセッサによって実行され得る命令が記憶されており、前記命令が前記少なくとも１つのプロセッサによって実行されることで、前記少なくとも１つのプロセッサが請求項１から５のいずれか一項に記載の方法を実行可能となる電子機器。
コンピュータ命令を記憶した非一時的なコンピュータ読取可能な記憶媒体であって、前記コンピュータ命令が、請求項１から５のいずれか一項に記載の方法をコンピュータに実行させるためのものである非一時的なコンピュータ読取可能な記憶媒体。
コンピュータプログラムを含むコンピュータプログラム製品であって、前記コンピュータプログラムがプロセッサによって実行されると、請求項１から５のいずれか一項に記載の方法が実現されるコンピュータプログラム製品。