JP2022050622A - 分野フレーズマイニング方法、装置及び電子機器 - Google Patents

分野フレーズマイニング方法、装置及び電子機器 Download PDF

Info

Publication number
JP2022050622A
JP2022050622A JP2022004275A JP2022004275A JP2022050622A JP 2022050622 A JP2022050622 A JP 2022050622A JP 2022004275 A JP2022004275 A JP 2022004275A JP 2022004275 A JP2022004275 A JP 2022004275A JP 2022050622 A JP2022050622 A JP 2022050622A
Authority
JP
Japan
Prior art keywords
phrase
word vector
field
target
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2022004275A
Other languages
English (en)
Other versions
JP7351942B2 (ja
Inventor
細軍 ▲ゴン▼
Xijun Gong
▲ジャオ▼ 劉
Jao Ryu
睿 李
Rui Li
瑞鋒 李
Ruifeng Li
海浩 唐
Haihao Tang
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2022050622A publication Critical patent/JP2022050622A/ja
Application granted granted Critical
Publication of JP7351942B2 publication Critical patent/JP7351942B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/19007Matching; Proximity measures
    • G06V30/19093Proximity measures, i.e. similarity or distance measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19107Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/196Recognition using electronic means using sequential comparisons of the image signals with a plurality of references
    • G06V30/1983Syntactic or structural pattern recognition, e.g. symbolic string recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

Figure 2022050622000001
【課題】分野フレーズの効率及び正確性を向上させるマイニング方法、装置及び電子機器を提供する。
【解決手段】方法は、ターゲットテキスト内の分野フレーズであって、ターゲットテキストの属する分野におけるフレーズとなる分野フレーズに対し、単語ベクトル変換を行って第一単語ベクトルを獲得し、ターゲットテキスト内の未知フレーズに対し、単語ベクトル変換を行って第二単語ベクトルを獲得し、第一単語ベクトルと前記第二単語ベクトルとによって形成された単語ベクトル空間を取得し、単語ベクトル空間内の、第二単語ベクトルの周囲に位置する所定の数のターゲット単語ベクトルを認識し、所定の数のターゲット単語ベクトルと第二単語ベクトルとの間の類似度値に基づいて、未知フレーズがターゲットテキストの属する分野のフレーズであるかどうかを確定する。
【選択図】図1

Description

本開示は、コンピュータ技術の分野、特に言語処理技術の分野に関し、具体的には、分野フレーズマイニング方法、装置及び電子機器に関する。
分野フレーズは、分野の特性を表すことができるとともに、他の分野の特徴と区別することができるため、分野フレーズのマイニングは、文字情報処理における重要な基礎作業の1つになっている。一方で、当今のインターネット技術の急速な発展に伴い、ネチズンのオーサリングコンテンツが広くマイニング及び伝播され、新しいフレーズや語彙も絶えずに出現しており、分野フレーズのマイニングは、コンテンツマイニングの分野において、重要な作業の1つになってきた。
解決しようとする課題
本開示は、分野フレーズマイニング方法、装置及び電子機器を提供する。
本開示の第一局面によれば、ターゲットテキスト内の分野フレーズであって、前記ターゲットテキストの属する分野におけるフレーズとなる分野フレーズに対し、単語ベクトル変換を行って第一単語ベクトルを獲得し、前記ターゲットテキスト内の未知フレーズに対し、単語ベクトル変換を行って第二単語ベクトルを獲得することと、前記第一単語ベクトルと前記第二単語ベクトルとによって形成された単語ベクトル空間を取得し、前記単語ベクトル空間内の、前記第二単語ベクトルの周囲に位置する所定の数のターゲット単語ベクトルを認識することと、前記所定の数のターゲット単語ベクトルと前記第二単語ベクトルとの間の類似度値に基づいて、前記未知フレーズが前記ターゲットテキストの属する分野のフレーズであるかどうかを確定することと、を含む分野フレーズマイニング方法を提供している。
本開示の第二局面によれば、ターゲットテキスト内の分野フレーズであって、前記ターゲットテキストの属する分野におけるフレーズとなる分野フレーズに対し、単語ベクトル変換を行って第一単語ベクトルを獲得し、前記ターゲットテキスト内の未知フレーズに対し、単語ベクトル変換を行って第二単語ベクトルを獲得するための変換モジュールと、前記第一単語ベクトルと前記第二単語ベクトルとによって形成された単語ベクトル空間を取得し、前記単語ベクトル空間内の、前記第二単語ベクトルの周囲に位置する所定の数のターゲット単語ベクトルを認識するための認識モジュールと、前記所定の数のターゲット単語ベクトルと前記第二単語ベクトルとの間の類似度値に基づいて、前記未知フレーズが前記ターゲットテキストの属する分野のフレーズであるかどうかを確定するための確定モジュールと、を備える分野フレーズマイニング装置を提供している。
本開示の第三局面によれば、少なくとも1つのプロセッサと、該少なくとも1つのプロセッサと通信接続されたメモリと、を備える電子機器であって、前記メモリには、前記少なくとも1つのプロセッサによって実行され得る命令が記憶されており、前記命令が前記少なくとも1つのプロセッサによって実行されることで、前記少なくとも1つのプロセッサが第一局面に記載の方法を実行可能となる電子機器を提供している。
本開示の第四局面によれば、コンピュータ命令を記憶した非一時的なコンピュータ読取可能な記憶媒体であって、前記コンピュータ命令は、第一局面に記載の方法をコンピュータに実行させるためのものである非一時的なコンピュータ読取可能な記憶媒体を提供している。
本開示の第五局面によれば、コンピュータプログラムを含むコンピュータプログラム製品であって、前記コンピュータプログラムがプロセッサによって実行されると、第一局面に記載の方法が実現されるコンピュータプログラム製品を提供している。
本開示に係る技術案によれば、第二単語ベクトルの周囲における所定の数の第二単語ベクトルを認識しており、これは、ノイズがクラスタ内に加えられることでノイズが拡大されてしまうという問題を回避されるように、クラスタリング過程に制約条件を加えていることに相当するため、未知フレーズの認識判断の正確性を向上させることができる。
理解されないのは、この部分で説明された内容は、本開示の実施例における肝心又は重要な特徴を特定することを意図せず、本開示の範囲を制限するためのものでもない。本開示の他の特徴は、以下の説明により、理解され易くなるであろう。
図面は、本技術案をよりよく理解するためのものであり、本開示に対する制限を構成するものではない。
図1は、本開示の一実施例による分野フレーズマイニング方法のフローチャートである。 図2は、本開示に適用可能な分野フレーズマイニングモデルの構造図である。 図3は、本開示に適用可能な分野フレーズマイニングモデルのサンプル構築の模式図である。 図4は、本開示の一実施例による分野フレーズマイニング装置の構造図である。 図5は、本開示の実施例に係る分野フレーズマイニング方法を実現するための電子機器のブロック図である。
以下、図面を参照して本開示の例示的な実施例を説明する。理解を助けるために、その中には、本開示の実施例の様々な詳細を含むが、これらの詳細は、単に例示的なものであると理解されたい。したがって、当業者であれば、本開示の範囲及び精神から逸脱することなく、本明細書に記載の実施例に対して様々な変更及び修正を加えることができると認識すべきである。同様に、説明の明確化及び簡素化のために、以下の説明では、周知の機能及び構造についての記載が省略される。
本開示は、分野フレーズマイニング方法を提供している。
図1を参照して、図1は、本開示の一実施例による分野フレーズマイニング方法のフローチャートである。前記方法は、図1に示すように、以下のステップS101~S103を含む。
ステップS101は、ターゲットテキスト内の分野フレーズであって、前記ターゲットテキストの属する分野におけるフレーズとなる分野フレーズに対し、単語ベクトル変換を行って第一単語ベクトルを獲得し、前記ターゲットテキスト内の未知フレーズに対し、単語ベクトル変換を行って第二単語ベクトルを獲得することである。
説明すべきなのは、本開示の実施例による分野フレーズマイニング方法は、例えば携帯電話、タブレットパソコン、ノートブックコンピュータ、デスクトップコンピュータ等の電子機器に適用され得る。
選択的に、テキストの属する分野は、異なる分類規則に従って区分してもよい。例えば、学科に従って区分してもよく、一例として、テキストの属する分野には、医学、数学、物理、文学等が含まれ得る。又は、ニュースの属性に従って区分してもよく、一例として、テキストの属する分野には、軍事、経済、政治、スポーツ、エンターテインメント等が含まれ得る。又は、テキストの属する分野は、他の区分方式とされてもよいが、本開示では、特に限定しない。
本開示の実施例において、前記ステップS101の前には、ターゲットテキストを取得し、前記ターゲットテキストの属する分野を確定することと、前記ターゲットテキスト内の分野フレーズ及び未知フレーズを取得することとを更に含んでもよい。
選択的に、前記ターゲットテキストは、ネットワークダウンロードに基づいて電子機器によって獲得されたものであってもよいし、電子機器によって既に格納されたテキストであってもよく、更に、電子機器によってオンラインで認識されたテキストであってもよい。例えば、前記ターゲットテキストは、ネットワークダウンロードに基づいて電子機器によって得られた学術論文や、電子機器上で現在動作中のアプリケーションプログラムインターフェースに表示されているスポーツニュース等であり得る。
さらに、電子機器は、ターゲットテキストを取得した後、前記ターゲットテキストの属する分野を確定する。選択的に、電子機器は、ターゲットテキストに対してキーワード認識を行うことで、キーワードによりターゲットテキストの属する分野を確定してもよい。例えば、ターゲットテキストが医学類学術論文であれば、当該論文のキーワードを認識することで、当該論文の属する分野が医学であると確定する。
本開示の実施例において、電子機器は、ターゲットテキストの属する分野を確定した後、更にターゲットテキスト内の分野フレーズ及び未知フレーズを取得する。ここで、前記分野フレーズは、前記ターゲットテキストの属する分野におけるフレーズであり、前記未知フレーズは、前記ターゲットテキストの属する分野に属しているかどうかを判断できないフレーズである。例えば、ターゲットテキストが医学類学術論文であれば、ターゲットテキストの属する分野は医学となり、当該ターゲットテキストに含まれる「ワクチン」や「慢性疾患」等のフレーズは、ターゲットテキストの属する分野におけるフレーズに属し、当該ターゲットテキストに現れる「高標準、塩要求」、「声もたてないで気く」等、医学分野に属しているかどうかを確定できないフレーズも、未知フレーズとして区分可能となる。こうして、ターゲットテキストの属する分野に基づいて、ターゲットテキスト内のフレーズに対し、ターゲットを絞るような区分を行うこともできる。
選択的に、ターゲットテキストを取得した後、電子機器は、更にターゲットテキストに対して、単語分割や単語選別等の前処理を行ってもよい。理解できるように、ターゲットテキストは、若干の語句で構成されることが一般的であり、この場合、ターゲットテキスト内の語句に対して単語選別を行ってもよく、例えば、「私たち」、「貴方たち」、「の」、「美しい」等の通常単語や形容詞を取り除いてから、単語分割処理を行い、若干のフレーズを得て、更に、これらのフレーズが分野フレーズであるか、それとも未知フレーズであるかを認識してもよい。前記単語分割には、特定の単語分割ツール定義ライブラリを持たせていてもよく、選択的に、統計的相互情報、左右の情報エントロピーに基づいて新しい単語を選別して、単語分割ツール自定義ライブラリ内に追加してもよい。
理解できるように、ターゲットテキストに対して単語分割や単語選別等の前処理を行うことで、通常単語や形容詞による単語分割への干渉を回避でき、単語分割処理の正確度の向上に寄与し、ターゲットテキストの分野フレーズ及び未知フレーズを得ることもできる。説明すべきなのは、テキストに対する単語分割処理については、関連技術を参照でき、本開示では、単語分割処理の具体的な原理を詳しく繰り返して述べない。
本開示の実施例において、ターゲットテキストの分野フレーズ及び未知フレーズを取得した後、それぞれ前記分野フレーズ及び未知フレーズに対して単語ベクトル変換を行い、前記分野フレーズに対応する第一単語ベクトル、及び、前記未知フレーズに対応する第二単語ベクトルを得る。選択的に、前記単語ベクトル変換とは、単語をベクトル形式に変換して表現することを指し、例えば、word2vec(word to vector)方式に基づいて実現してもよい。
説明すべきなのは、分野フレーズが複数の場合、第一単語ベクトルも複数となり、1つの分野フレーズについては、単語ベクトル変換を経て、それに対応する第一単語ベクトルが得られる。つまり、第一単語ベクトルの数は、分野フレーズの数と同じであり、1つの分野フレーズは、1つの第一単語ベクトルに対応する。同様に、第二単語ベクトルの数も、未知フレーズの数と同じであり、1つの未知フレーズは、1つの第二単語ベクトルに対応する。
ステップS102は、前記第一単語ベクトルと前記第二単語ベクトルとによって形成された単語ベクトル空間を取得し、前記単語ベクトル空間内の、前記第二単語ベクトルの周囲に位置する所定の数のターゲット単語ベクトルを認識することである。
本開示の実施例において、ターゲットテキスト内の分野フレーズ及び未知フレーズに対して単語ベクトル変換を行って、第一単語ベクトル及び第二単語ベクトルが得られると、第一単語ベクトルと第二単語ベクトルとによって形成された単語ベクトル空間を得ることができ、第一単語ベクトル及び第二単語ベクトルが当該単語ベクトル空間内に位置することになり、この場合、第二単語ベクトルの周囲における所定の数のターゲット単語ベクトルを認識する。例えば、所定の数が10とされると、第二単語ベクトルからの距離が最も短い10個のターゲット単語ベクトルを取得する。ここで、前記所定の数は、電子機器によって事前に設定されてもよく、又は、ユーザ操作に基づいて変更されてもよい。
説明すべきなのは、本開示において、何れか1つの第二単語ベクトルの周囲における所定の数のターゲット単語ベクトルを取得してもよく、又は、各々の第二単語ベクトルの周囲における所定の数のターゲット単語ベクトルを取得してもよい。前記ターゲット単語ベクトルは、第一単語ベクトル、第二単語ベクトル、及び、通常フレーズを変換して得られた第三単語ベクトルを含んでもよく、又は、前記ターゲット単語ベクトルは、第一単語ベクトル及び第三単語ベクトルのみを含んでもよい。
ステップS103は、前記所定の数のターゲット単語ベクトルと前記第二単語ベクトルとの間の類似度値に基づいて、前記未知フレーズが前記ターゲットテキストの属する分野のフレーズであるかどうかを確定することである。
本開示の実施例において、第二単語ベクトルの周囲における所定の数のターゲット単語ベクトルが確定された後、各々のターゲット単語ベクトルと第二単語ベクトルとの類似度値を計算し、計算された類似度値に基づいて、第二単語ベクトルに対応する未知フレーズが前記ターゲットテキストの属する分野のフレーズであるかどうかを確定してもよい。
例えば、ターゲット単語ベクトルの所定の数が10であると仮定すると、各々のターゲット単語ベクトルと第二単語ベクトルとの間の類似度値が計算されるため、類似度値が10個得られるようになり、これら10個の類似度値の平均値を計算し、平均値の大きさに基づいて、未知フレーズが前記ターゲットテキストの属する分野のフレーズであるかどうかを確定してもよく、又は、これら10個の類似度値総和を求め、求められた総和の大きさに基づいて、未知フレーズが前記ターゲットテキストの属する分野のフレーズであるかどうかを確定してもよい。
理解できるように、前記所定の数のターゲット単語ベクトルと前記第二単語ベクトルとの間の類似度値に基づけば、前記未知フレーズが前記ターゲットテキストの属する分野のフレーズであるか、或いは、前記未知フレーズが前記ターゲットテキストの属する分野のフレーズではないという2つの結果を得ることができる。こうして、ターゲットテキスト内の、ターゲットテキストの属する分野に属しているフレーズをマイニングすることができ、ひいては、ターゲットテキストの属する分野の分野フレーズを拡充することもできる。
本開示の実施例において、フレーズを単語ベクトルに変換して、単語ベクトル間の類似度値により、未知フレーズがターゲットテキストの属する分野のフレーズに属するかどうかを確定しており、つまり、クラスタリングの方式で未知フレーズの認識判断を行っている。その中で、第二単語ベクトルの周囲における所定の数の第二単語ベクトルを認識しており、これは、ノイズがクラスタ内に加えられることでノイズが拡大されてしまうという問題を回避されるように、クラスタリング過程に制約条件を加えていることに相当するため、未知フレーズの認識判断の正確性を向上させることができ、しかも、人間の主観的な経験に基づいて未知フレーズを注記者によって判断する必要もなく、人間の主観的な経験による影響が回避され、人力が節約されるとともに、未知フレーズの認識判断の正確性も向上される。
選択的に、前記方法は、前記第一単語ベクトルによって形成された第一クラスタを取得し、所定の通常フレーズを第三単語ベクトルに変換して形成された第二クラスタを取得することと、前記第二単語ベクトルと前記第一クラスタのクラスタ中心との間の第一距離を取得するとともに、前記第二単語ベクトルと前記第二クラスタのクラスタ中心との間の第二距離を取得することとを更に含んでもよく、この場合、前記の前記単語ベクトル空間内の、前記第二単語ベクトルの周囲に位置する所定の数のターゲット単語ベクトルを認識することは、前記第一距離が前記第二距離よりも小さい場合、前記単語ベクトル空間内の、前記第二単語ベクトルの周囲に位置する所定の数のターゲット単語ベクトルを認識することを含む。
理解できるように、ターゲットテキストには、確定可能な分野フレーズに加えて、例えば「私たち」、「貴方たち」、「偉い」、「美しい」等の通常単語や形容詞も含まれ、本開示の実施例では、このようなフレーズが通常フレーズと呼ばれる。ここで、前記所定の通常フレーズは、電子機器によって事前に格納及び設定されたものであり、ターゲットテキストから認識される通常フレーズではない。
本開示の実施例において、前記単語ベクトル空間は、第一単語ベクトル及び第二単語ベクトルだけでなく、所定の通常フレーズに対する単語ベクトル変換を経て得られた第三単語ベクトルも含むのであれば、第一単語ベクトルによって形成された第一クラスタ、及び、第三単語ベクトルによって形成された第二クラスタが取得され、ひいては、第一クラスタのクラスタ中心、及び、第二クラスタのクラスタ中心も取得できる。ここで、前記クラスタ中心は、クラスタに含まれる全ての単語ベクトルの平均値であってもよく、更に、クラスタ中心もベクトル形式となる。
選択的に、第二単語ベクトルと第一クラスタのクラスタ中心との間の第一距離を計算するとともに、第二単語ベクトルと第二クラスタのクラスタ中心との間の第二距離を計算する。説明すべきなのは、この場合、何れか1つの第二単語ベクトルが第二ターゲット単語ベクトルとして選択されて、当該第二ターゲット単語ベクトルと第一クラスタのクラスタ中心との間の第一距離が計算されるとともに、当該第二ターゲット単語ベクトルと第二クラスタのクラスタ中心との間の第二距離が計算されることになる。
さらに、第一距離と第二距離との大きさを比較して、第一距離が第二距離よりも小さければ、第二単語ベクトルが第一クラスタのクラスタ中心の方により近いことを示し、第一クラスタが第一単語ベクトルによって形成されたものであるため、第二単語ベクトルが、第一単語ベクトルに対応する分野フレーズの方により近いと考えることができる。この場合、前記単語ベクトル空間内の、前記第二単語ベクトルの周囲に位置する所定の数のターゲット単語ベクトルを認識し、前記所定の数のターゲット単語ベクトルと前記第二単語ベクトルとの間の類似度値に基づいて、前記未知フレーズが前記ターゲットテキストの属する分野のフレーズであるかどうかを確定することになる。
説明すべきなのは、第一距離が第二距離よりも大きければ、第二単語ベクトルが第二クラスタのクラスタ中心の方により近いことを示し、第二クラスタが、所定の通常フレーズを第三単語ベクトルに変換して形成されたものであるため、第二単語ベクトルが通常分野フレーズである可能性が高いと考えることができる。この場合、未知フレーズは、通常分野フレーズである可能性が高く、前記ターゲットテキストの属する分野のフレーズに属する可能性が低いため、第二単語ベクトルの周囲におけるターゲット単語ベクトルを認識する必要がなくなり、その後の未知フレーズがターゲットテキストの属する分野に属しているかどうかの認識判断が行われなくても構わない。
本開示の実施例において、第二単語ベクトルと第一クラスタのクラスタ中心との間の第一距離、及び、第二単語ベクトルと第二クラスタのクラスタ中心との間の第二距離をそれぞれ取得して、第一距離と第二距離との大きさを比較することで、第二単語ベクトルの周囲におけるターゲット単語ベクトルを認識するかどうかを確定している。こうして、第二単語ベクトルが第一クラスタのクラスタ中心の方により近い場合に限って、更に未知フレーズがターゲットテキストの属する分野のフレーズであるかどうかを判断することになり、未知フレーズの判断の正確性がより一層に向上される。
選択的に、前記ステップS103は、各々の前記ターゲット単語ベクトルと前記第二単語ベクトルとの間のターゲット類似度値を取得し、前記所定の数のターゲット類似度値を得て、前記所定の数のターゲット類似度値の類似度値総和を取得することと、前記類似度値総和が所定の閾値よりも大きい場合、前記未知フレーズが前記ターゲットテキストの属する分野のフレーズであると確定することと、前記類似度値総和が前記所定の閾値よりも小さい場合、前記未知フレーズが前記ターゲットテキストの属する分野のフレーズではないと確定することとを含んでもよい。
本開示の実施例において、所定の数のターゲット単語ベクトルを取得した後、各々のターゲット単語ベクトルと第二単語ベクトルとの間のターゲット類似度値を計算しており、こうして、所定の数のターゲット類似度値が得られ、所定の数のターゲット類似度値総和が求められることになる。例えば、電子機器は、第二単語ベクトルからの距離が最も短い10個のターゲット単語ベクトルを取得し、各々のターゲット単語ベクトルと第二単語ベクトルとの間のターゲット類似度値をそれぞれ計算してもよく、こうして、ターゲット類似度値が10個得られ、これら10個のターゲット類似度値総和を計算すると、類似度値総和が得られる。
さらに、類似度値総和と所定の閾値との大きさを比較して、未知フレーズがターゲットテキストの属する分野のフレーズであるかどうかを確定する。類似度値総和が所定の閾値よりも大きければ、前記未知フレーズが前記ターゲットテキストの属する分野のフレーズであると確定され、類似度値総和が所定の閾値よりも小さければ、前記未知フレーズが前記ターゲットテキストの属する分野のフレーズではないと確定される。
理解できるように、類似度値総和は、各々のターゲット単語ベクトルと第二単語ベクトルとの間の類似度値に基づいて得られたものである一方で、ターゲット単語ベクトルは、第二単語ベクトルの方から近い単語ベクトルであり、両者の間の類似度値が大きいほど、第二単語ベクトルとターゲット単語ベクトルとが同類フレーズに属する可能性が高いことを示している。ここで、所定の閾値は、事前に設定された閾値であり、所定の閾値は、第一単語ベクトルに関連するものであってもよく、例えば、所定の閾値が第一単語ベクトルのベクトル平均値とされ、類似度値総和が所定の閾値よりも大きい場合は、第二単語ベクトルと第一単語ベクトルとが比較的に類似することを示しているため、未知フレーズがターゲットテキストの属する分野のフレーズであると確定され、類似度値総和が所定の閾値よりも小さい場合は、第二単語ベクトルと第一単語ベクトルとがあまり類似しないことを示しているため、未知フレーズがターゲットテキストの属する分野のフレーズではないと確定される。こうして、人間の経験による判断ではなく、類似度値と閾値との比較により、未知フレーズがターゲットテキストの属する分野のフレーズであるかどうかを確定でき、未知フレーズの認識判断の正確性が効果的に向上される。また、このような方式によれば、未知フレーズの認識判断の効率をより正確かつ効果的に向上させることもでき、ひいては、ターゲットテキストの属する分野のフレーズに対するマイニング効率を向上させることもできる。
選択的に、前記所定の閾値は、前記分野フレーズの数及び所定の通常フレーズの数に関連するものである。つまり、分野フレーズの数及び所定の通常フレーズの数の何れも、所定の閾値の大きさに影響し、例えば、分野フレーズの数が多くて所定の通常フレーズの数が少ないほど、所定の閾値が大きくなる。こうして、未知フレーズの認識判断は、分野フレーズの数及び所定の通常フレーズの数にも関連することになり、未知フレーズの判別の正確性が向上される。
例えば、未知フレーズがAとされ、当該未知フレーズAに対して単語ベクトル変換を行って第二単語ベクトルが得られ、単語ベクトル空間内の、当該第二単語ベクトルからの距離が最も短いn個のターゲット単語ベクトルが取得されたと仮定すると、各々のターゲット単語ベクトルと第二単語ベクトルとの類似度値を計算し、獲得されたn個の類似度値総和を求め、類似度値総和を得て、当該類似度値総和と所定の閾値との大きさを比較することになる。具体的な計算式は、以下の通りである。
Figure 2022050622000002

ここで、psum(X)は、n個のターゲット単語ベクトルと第二単語ベクトルとの間の類似度値総和を表し、Piは、n個のターゲット単語ベクトルのうち、対応するi個目のターゲット単語ベクトルと第二単語ベクトルとの間の類似度を表し、r(X)は、第二単語ベクトル及びその周囲における第一単語ベクトルの状況と、これらの第一単語ベクトルと第一クラスタのクラスタ中心との距離の状況を表し、centerposは、第一クラスタのクラスタ中心に対応するベクトルを表し、cosine(x,centerpos)は、第二単語ベクトルと第一クラスタのクラスタ中心との間の距離を表し、centernegは、第二クラスタのクラスタ中心に対応するベクトルを表し、cosine(x,centerneg)は、第二単語ベクトルと第二クラスタのクラスタ中心との間の距離を表す。
説明すべきなのは、ターゲット単語ベクトルが第一単語ベクトルの場合、
r(x)=cosine(x,centerpos)となり、ターゲット単語ベクトルが第三単語ベクトルの場合、r(x)=-10*cosine(x,centerneg)となり、ターゲット単語ベクトルが第二単語ベクトルの場合、r(x)=0となる。
選択的に、前記所定の閾値は、次の式に基づく計算で得られたものであってもよい。
Figure 2022050622000003
ここで、kth(x)は、所定の閾値を表し、possizeは、分野フレーズの数を表し、negsizeは、所定の通常フレーズの数を表し、totalsampleは、未知フレーズと、分野フレーズと、所定の通常フレーズの総数を表し、tth(x)は、ペナルティ係数を表す。
選択的に、ターゲット単語ベクトルが第一単語ベクトルの場合、
Figure 2022050622000004
となり、ターゲット単語ベクトルが第三単語ベクトルの場合、
Figure 2022050622000005
となる。こうして、所定の閾値は、分野フレーズの数及び所定の通常フレーズの数の何れにも関連するものとされ、例えば、ターゲット単語ベクトルが第一単語ベクトルの場合、分野フレーズの割合が大きいほど、ペナルティ係数が大きくなり、ひいては、所定の閾値も大きくなる。このような設定によれば、更に分野フレーズの数及び所定の通常フレーズの数に基づいて、本開示によるクラスタリングスキームを制約することができ、つまり、未知フレーズがターゲットテキストの属する分野に属しているかの判別に影響を与えることになる。
説明すべきなのは、本開示の実施例において、未知フレーズに対する判別を完了した後、改めて上記ステップに基づいて、ターゲットテキストに対して未知フレーズの判別をもう一度行ってもよく、これは、ターゲットテキストの属する分野に属しているフレーズをより多くマイニングして、ターゲットテキストの属する分野内のフレーズの数を拡充し、テキストコンテンツのリコールやマルチレベルのラベリング等、下流のタスクの実現をより好適に支援するためである。
選択的に、本開示の実施例による方法は、前記未知フレーズが前記ターゲットテキストの属する分野のフレーズであると確定した場合、前記未知フレーズを、分野フレーズマイニングモデルの訓練用ポジティブサンプルであって、単語ベクトル変換が行われると、第一クラスタに属するようになる訓練用ポジティブサンプルとすることと、前記未知フレーズが前記ターゲットテキストの属する分野のフレーズではないと確定した場合、前記未知フレーズを、分野フレーズマイニングモデルの訓練用ネガティブサンプルであって、単語ベクトル変換が行われると、第二クラスタに属するようになる訓練用ネガティブサンプルとすることとを更に含む。
本開示の実施例において、未知フレーズに対する認識を完了すると、認識された未知フレーズを、分野フレーズマイニングモデルの訓練用ポジティブサンプル又は訓練用ネガティブサンプルとして、更に分野フレーズマイニングモデルのサンプルの数を拡充することで、分野フレーズマイニングモデルに対する訓練をより好適に実現してもよい。
説明すべきなのは、前記分野フレーズマイニングモデルは、ニューラルネットワークモデルであり、前記分野フレーズマイニングモデルの訓練方式については、関連技術におけるニューラルネットワークモデルの訓練方式を参照でき、本開示では、これについて繰り返して述べない。
選択的に、前記分野フレーズマイニングモデルは、ツインネットワーク構造モデルである。図2に示すように、ツインネットワーク構造モデルには、3タワーの構造が使用されるが、各タワーのネットワーク層パラメータが共有される。その中で、anchorは、ターゲットサンプルを表し、R-Pos(relative positive sample)は、ターゲットサンプルペアの同類サンプルの中心を表し、ターゲットサンプルが訓練用ポジティブサンプル又は分野フレーズであれば、相対するサンプルは、訓練用ポジティブサンプルとなり、ターゲットサンプルが訓練用ネガティブサンプル又は所定の通常フレーズであれば、相対するサンプルは、訓練用ネガティブサンプルとなる。R-Neg(relative negative sample)は、ターゲットサンプルに対応する反対サンプルの中心を表し、ターゲットサンプルが訓練用ポジティブサンプルであれば、相対するサンプルは、訓練用ネガティブサンプルとなり、ターゲットサンプルが訓練用ネガティブサンプルであれば、相対するサンプルは、訓練用ポジティブサンプルとなる。R(anchor、R-*)は、余弦類似度(cosine similarity)を表す。余弦類似度の表現式は、以下の通りである。
Figure 2022050622000006
ここで、cosine(A,B)は、サンプルAとサンプルBとの間の余弦類似度を表し、前記分野フレーズマイニングモデルのネットワーク層には、rule活性化関数が使用され、ネットワークパラメータW={w1,w2,w3}、B={b1,b2,b3}であり、初期化には、一様分布(uniform distribution)が使用され、一様分布の値範囲は、[-param_range,param_range]であり、
Figure 2022050622000007
outputsizeは、出力パラメータを表し、inputsizeは、入力パラメータを表す。
選択的に、前記分野フレーズマイニングモデルは、Triplet-Center Lossを損失関数の主体として使用してもよく、ここで、Triplet-Center Lossは、次のような準則に従ってもよく、即ち、近似サンプル間の距離が小さいほど好ましくなり、非近似サンプル間の距離が閾値よりも小さければ、相互排除により、両者の距離を当該閾値以上にする。損失関数の計算方式は、以下の通りである。
Figure 2022050622000008
ここで、marginは閾値を表し、cosine(anchor,PRos)は、ターゲットサンプルと訓練用ポジティブサンプルとの間の余弦類似度を表し、cosine(anchor,RNeg)は、ターゲットサンプルと訓練用ネガティブサンプルとの間の余弦類似度を表す。
例えば、前記分野フレーズマイニングモデルのサンプル構築中には、ポジティブサンプル及びネガティブサンプルをanchorとしてトラバーサルしてもよく、ポジティブサンプルP={p1,p2,…,pn}、ネガティブサンプルN={n1,n2,…,nn}については、もしanchorがポジティブサンプルであれば、ポジティブサンプルライブラリ内の最も類似しないサンプルをR-Posとして取り、ネガティブサンプルライブラリ内の最も類似するサンプルをN-Negとして取り、もしanchorがネガティブサンプルであれば、ネガティブサンプルライブラリ内の最も類似しないサンプルをR-Posとして取り、ポジティブサンプルライブラリ内の最も類似するサンプルをR-Negとして取る。図3に示すように、anchorは0.67で、ポジティブサンプルである場合、ポジティブサンプルライブラリ内の最も類似しないサンプル0をR-Posとして選択し、ネガティブサンプルライブラリ内の最も類似しない-0.3をN-Negとして選択することが可能である。こうして、分野フレーズマイニングモデルのサンプル構築が完成され、更に分野フレーズマイニングモデルに対する訓練がより好適に実現され、分野フレーズマイニングモデルの正確性が向上される。
本開示は、分野フレーズマイニング装置を更に提供している。
図4を参照して、図4は、本開示の一実施例による分野フレーズマイニング装置の構造図である。前記分野フレーズマイニング装置400は、図4に示すように、ターゲットテキスト内の分野フレーズであって、前記ターゲットテキストの属する分野におけるフレーズとなる分野フレーズに対し、単語ベクトル変換を行って第一単語ベクトルを獲得し、前記ターゲットテキスト内の未知フレーズに対し、単語ベクトル変換を行って第二単語ベクトルを獲得するための変換モジュール401と、前記第一単語ベクトルと前記第二単語ベクトルとによって形成された単語ベクトル空間を取得し、前記単語ベクトル空間内の、前記第二単語ベクトルの周囲に位置する所定の数のターゲット単語ベクトルを認識するための認識モジュール402と、前記所定の数のターゲット単語ベクトルと前記第二単語ベクトルとの間の類似度値に基づいて、前記未知フレーズが前記ターゲットテキストの属する分野のフレーズであるかどうかを確定するための確定モジュール403とを備える。
選択的に、前記分野フレーズマイニング装置400は、前記第一単語ベクトルによって形成された第一クラスタを取得し、所定の通常フレーズを第三単語ベクトルに変換して形成された第二クラスタを取得するための第一取得モジュールと、前記第二単語ベクトルと前記第一クラスタのクラスタ中心との間の第一距離を取得するとともに、前記第二単語ベクトルと前記第二クラスタのクラスタ中心との間の第二距離を取得するための第二取得モジュールとを更に備え、前記認識モジュール402は、前記第一距離が前記第二距離よりも小さい場合、前記単語ベクトル空間内の、前記第二単語ベクトルの周囲に位置する所定の数のターゲット単語ベクトルを認識するために更に用いられる。
選択的に、前記確定モジュール403は、各々の前記ターゲット単語ベクトルと前記第二単語ベクトルとの間のターゲット類似度値を取得し、前記所定の数のターゲット類似度値を得て、前記所定の数のターゲット類似度値の類似度値総和を取得し、前記類似度値総和が所定の閾値よりも大きい場合、前記未知フレーズが前記ターゲットテキストの属する分野のフレーズであると確定し、前記類似度値総和が前記所定の閾値よりも小さい場合、前記未知フレーズが前記ターゲットテキストの属する分野のフレーズではないと確定するために更に用いられる。
選択的に、前記所定の閾値は、前記分野フレーズの数及び所定の通常フレーズの数に関連するものである。
選択的に、前記確定モジュール403は、前記未知フレーズが前記ターゲットテキストの属する分野のフレーズであると確定した場合、前記未知フレーズを、分野フレーズマイニングモデルの訓練用ポジティブサンプルであって、単語ベクトル変換が行われると、第一クラスタに属するようになる訓練用ポジティブサンプルとし、前記未知フレーズが前記ターゲットテキストの属する分野のフレーズではないと確定した場合、前記未知フレーズを、分野フレーズマイニングモデルの訓練用ネガティブサンプルであって、単語ベクトル変換が行われると、第二クラスタに属するようになる訓練用ネガティブサンプルとするために更に用いられ、ここで、前記分野フレーズマイニングモデルは、ツインネットワーク構造モデルである。
説明すべきなのは、本実施例による分野フレーズマイニング装置400は、上記分野フレーズマイニング方法の実施例に係る全ての技術案を実現可能であるため、少なくとも上記の全ての技術的効果を実現可能であるが、ここで繰り返して述べない。
本開示の実施例によれば、本開示は、電子機器、読取可能な記憶媒体、及び、コンピュータプログラム製品を更に提供している。
図5は、本開示の実施例を実施するために使用できる例示的な電子機器500のブロック図を模式的に示している。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークベンチ、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、及びその他の適切なコンピュータなど、様々な形態のデジタルコンピュータを表すことを目的としている。電子機器は、パーソナルデジタルアシスタント、セルラフォン、スマートフォン、ウェアラブルデバイス、及びその他の類似なコンピューティング装置など、様々な形態のモバイル装置を表すこともできる。本明細書で示されるコンポーネント、それらの接続及び関係、並びにそれらの機能は単なる例であり、本明細書で説明及び/又は要求される本開示の実現を制限することを意図するものではない。
図5に示すように、機器500は、読取専用メモリ(ROM)502に記憶されたコンピュータプログラム、又は、記憶ユニット508からランダムアクセスメモリ(RAM)503にロードされたコンピュータプログラムに従って、各種の適切な動作及び処理を実行可能なコンピューティングユニット501を備える。RAM503には、機器500の操作に必要な各種のプログラム及びデータが記憶されてもよい。コンピューティングユニット501と、ROM502とRAM503とは、バス504を介して互いに接続されている。入力/出力(I/O)インターフェース505も、バス504に接続されている。
機器500における複数のコンポーネントは、I/Oインターフェース505に接続されており、前記複数のコンポーネントは、例えばキーボード、マウス等の入力ユニット506、例えば様々な類型のディスプレイ、スピーカ等の出力ユニット507、例えば磁気ディスク、光ディスク等の記憶ユニット508、及び、例えばネットワークカード、モデム、無線通信トランシーバ等の通信ユニット509を備える。通信ユニット509は、機器500がインターネット等のコンピュータネットワーク及び/又は様々な電気通信ネットワークを介して他の機器と情報/データを交換することを可能にする。
コンピューティングユニット501は、処理及びコンピューティング能力を有する様々な汎用及び/又は専用処理構成要素とすることができる。コンピューティングユニット501のいくつかの例としては、中央処理ユニット(CPU)、グラフィック処理ユニット(GPU)、様々な専用人工知能(AI)コンピューティングチップ、機械学習モデルアルゴリズムを実行する様々なコンピューティングユニット、デジタル信号プロセッサ(DSP)、及び任意の適切なプロセッサ、コントローラ、マイクロコントローラ等を含むが、これらに限定されない。コンピューティングユニット501は、上述した各方法及び処理、例えば分野フレーズマイニング方法を実行する。例えば、いくつかの実施例において、分野フレーズマイニング方法は、記憶ユニット508等の機械読取可能な媒体に有形に含まれるコンピュータソフトウェアプログラムとして実現されてもよい。いくつかの実施例において、コンピュータプログラムの一部又は全部は、ROM502及び/又は通信ユニット509を介して機器500にロード及び/又はインストールされてもよい。コンピュータプログラムがRAM503にロードされてコンピューティングユニット501によって実行されると、上述した分野フレーズマイニング方法の1つ又は複数のステップを実行可能となる。代替的に、他の実施例において、コンピューティングユニット501は、他の任意の適切な方式によって(例えば、ファームウェアを通じて)、分野フレーズマイニング方法を実行するように構成されてもよい。
本明細書において上述したシステム及び技術の様々な実装形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途向け標準製品(ASSP)、システムオンチップ(SOC)のシステム、複合プログラマブルロジックデバイス(CPLD)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせで実現可能である。これらの様々な実施例は、少なくとも1つのプログラマブルプロセッサを備えるプログラマブルシステム上で実行及び/又は解釈可能な1つ又は複数のコンピュータプログラムで実施されてもよく、当該プログラマブルプロセッサは、ストレージシステム、少なくとも1つの入力装置、及び少なくとも1つの出力装置からデータ及び命令を受信し、データ及び命令を当該ストレージシステム、当該少なくとも1つの入力装置、及び当該少なくとも1つの出力装置に送信可能な専用又は汎用のプログラマブルプロセッサであってもよい。
本開示の方法を実施するためのプログラムコードは、1つ又は複数のプログラミング言語の任意の組み合わせで作成することが可能である。これらのプログラムコードは、汎用コンピュータ、専用コンピュータ、又は他のプログラマブルデータ処理装置のプロセッサ又はコントローラに提供されてもよく、こうした場合、プログラムコードがプロセッサ又はコントローラによって実行されると、フローチャート及び/又はブロック図に規定された機能及び/又は操作が実施される。プログラムコードは、全てマシン上で実行され、部分的にマシン上で実行され、スタンドアロンソフトウェアパッケージとして、部分的にマシン上で、部分的にリモートマシン上で実行され、又は全部でリモートマシン又はサーバ上で実行され得る。
本開示の記載において、機械読取可能な媒体は、命令実行システム、装置やデバイスによって使用されるか、或いは命令実行システム、装置やデバイスと組み合わせて使用されるプログラムを包含又は記憶可能な有形の媒体であってもよい。機械読取可能な媒体は、機械読取可能な信号媒体又は機械読取可能な記憶媒体であってもよい。機械読取可能な媒体は、電子、磁気、光学、電磁気、赤外線、又は半導体のシステム、装置やデバイス、又はこれらの任意の適切な組み合わせを含んでもよいが、それらに限定されない。機械読取可能な記憶媒体のより具体的な例としては、1つ又は複数の線による電気接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読取専用メモリ(ROM)、消去可能なプログラマブル読取専用メモリ(EPROM又はフラッシュメモリ)、光ファイバ、ポータブルコンパクトディスク読取専用メモリ(CD-ROM)、光学記憶機器、磁気記憶機器、又はこれらの任意の適切な組み合わせが含まれる。
ユーザとのインタラクションを提供するために、本明細書に記載のシステム及び技術は、ユーザに情報を表示するための表示装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニタ)と、キーボード及びポインティング装置(例えば、マウス又はトラックボール)とを有するコンピュータ上で実施されてもよく、ユーザは、当該キーボード及び当該ポインティング装置を介してコンピュータに入力を提供可能である。他の種類の装置を使用してユーザとのインタラクションを提供してもよい。例えば、ユーザに提供されるフィードバックは、任意の形式のセンシングフィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、また、任意の形式(音響入力、音声入力、又は触覚入力を含む)を用いてユーザからの入力を受信してもよい。
本明細書に記載のシステム及び技術は、バックエンドコンポーネントを備えるコンピューティングシステム(例えば、データサーバとして)、又はミドルコンポーネントを備えるコンピューティングシステム(例えば、アプリケーションサーバ)、又はフロントエンドコンポーネントを備えるコンピューティングシステム(例えば、グラフィカルユーザインターフェース又はWebブラウザを備えたユーザコンピュータ。ユーザは、当該グラフィカルユーザインターフェース又は当該Webブラウザを介して、ここで説明されるシステム及び技術の実施形態とインタラクションできる)、又はこのようなバックエンドコンポーネント、ミドルコンポーネント、又はフロントエンドコンポーネントの任意の組み合わせを備えるコンピューティングシステム内で実施することができる。任意の形式又は媒体のデジタルデータ通信(例えば、通信ネットワーク)によってシステムのコンポーネントを相互接続してもよい。通信ネットワークの例としては、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)及びインターネットが含まれる。
コンピュータシステムは、クライアントとサーバとを備えることが可能である。一般的に、クライアントとサーバとは互いに離れており、通常は通信ネットワークを介してインタラクションする。それぞれのコンピュータで実行され且つ互いにクライアント-サーバの関係を持つコンピュータプログラムによってクライアントとサーバとの関係を生成する。
なお、上記の様々な形態のフローを使用して、ステップを並べ替え、追加又は削除可能であることを理解されたい。例えば、本開示で説明された各ステップは、並列、順次、又は異なる順序で実行可能である。本開示で掲載された技術案の望ましい結果を達成できればよく、本明細書は、これについて限定しない。
上記の具体的な実施形態は、本開示の保護範囲に対する制限を構成するものではない。当業者でれば、設計要件及び他の要因に応じて、様々な修正、組み合わせ、サブ組み合わせ、及び置き換えを行えることを理解するべきである。本開示の精神及び原則内で行われた修正、同等の置き換え、及び改善は、何れも本開示の保護範囲に含まれるものとする。

Claims (13)

  1. ターゲットテキスト内の分野フレーズであって、前記ターゲットテキストの属する分野におけるフレーズとなる分野フレーズに対し、単語ベクトル変換を行って第一単語ベクトルを獲得し、前記ターゲットテキスト内の未知フレーズに対し、単語ベクトル変換を行って第二単語ベクトルを獲得することと、
    前記第一単語ベクトルと前記第二単語ベクトルとによって形成された単語ベクトル空間を取得し、前記単語ベクトル空間内の、前記第二単語ベクトルの周囲に位置する所定の数のターゲット単語ベクトルを認識することと、
    前記所定の数のターゲット単語ベクトルと前記第二単語ベクトルとの間の類似度値に基づいて、前記未知フレーズが前記ターゲットテキストの属する分野のフレーズであるかどうかを確定することと、
    を含む分野フレーズマイニング方法。
  2. 前記第一単語ベクトルによって形成された第一クラスタを取得し、所定の通常フレーズを第三単語ベクトルに変換して形成された第二クラスタを取得することと、
    前記第二単語ベクトルと前記第一クラスタのクラスタ中心との間の第一距離を取得するとともに、前記第二単語ベクトルと前記第二クラスタのクラスタ中心との間の第二距離を取得することと、
    を含み、
    前記の前記単語ベクトル空間内の、前記第二単語ベクトルの周囲に位置する所定の数のターゲット単語ベクトルを認識することが、
    前記第一距離が前記第二距離よりも小さい場合、前記単語ベクトル空間内の、前記第二単語ベクトルの周囲に位置する所定の数のターゲット単語ベクトルを認識することを含む請求項1に記載の方法。
  3. 前記の前記所定の数のターゲット単語ベクトルと前記第二単語ベクトルとの間の類似度値に基づいて、前記未知フレーズが前記ターゲットテキストの属する分野のフレーズであるかどうかを確定することが、
    各々の前記ターゲット単語ベクトルと前記第二単語ベクトルとの間のターゲット類似度値を取得し、前記所定の数のターゲット類似度値を得て、前記所定の数のターゲット類似度値の類似度値総和を取得することと、
    前記類似度値総和が所定の閾値よりも大きい場合、前記未知フレーズが前記ターゲットテキストの属する分野のフレーズであると確定することと、
    前記類似度値総和が前記所定の閾値よりも小さい場合、前記未知フレーズが前記ターゲットテキストの属する分野のフレーズではないと確定することと、
    を含む請求項1に記載の方法。
  4. 前記所定の閾値が、前記分野フレーズの数及び所定の通常フレーズの数に関連するものである請求項3に記載の方法。
  5. 前記未知フレーズが前記ターゲットテキストの属する分野のフレーズであると確定した場合、前記未知フレーズを、分野フレーズマイニングモデルの訓練用ポジティブサンプルであって、単語ベクトル変換が行われると、第一クラスタに属するようになる訓練用ポジティブサンプルとすることと、
    前記未知フレーズが前記ターゲットテキストの属する分野のフレーズではないと確定した場合、前記未知フレーズを、分野フレーズマイニングモデルの訓練用ネガティブサンプルであって、単語ベクトル変換が行われると、第二クラスタに属するようになる訓練用ネガティブサンプルとすることと、
    を含み、
    前記分野フレーズマイニングモデルが、ツインネットワーク構造モデルである請求項1に記載の方法。
  6. ターゲットテキスト内の分野フレーズであって、前記ターゲットテキストの属する分野におけるフレーズとなる分野フレーズに対し、単語ベクトル変換を行って第一単語ベクトルを獲得し、前記ターゲットテキスト内の未知フレーズに対し、単語ベクトル変換を行って第二単語ベクトルを獲得するための変換モジュールと、
    前記第一単語ベクトルと前記第二単語ベクトルとによって形成された単語ベクトル空間を取得し、前記単語ベクトル空間内の、前記第二単語ベクトルの周囲に位置する所定の数のターゲット単語ベクトルを認識するための認識モジュールと、
    前記所定の数のターゲット単語ベクトルと前記第二単語ベクトルとの間の類似度値に基づいて、前記未知フレーズが前記ターゲットテキストの属する分野のフレーズであるかどうかを確定するための確定モジュールと、
    を備える分野フレーズマイニング装置。
  7. 前記第一単語ベクトルによって形成された第一クラスタを取得し、所定の通常フレーズを第三単語ベクトルに変換して形成された第二クラスタを取得するための第一取得モジュールと、
    前記第二単語ベクトルと前記第一クラスタのクラスタ中心との間の第一距離を取得するとともに、前記第二単語ベクトルと前記第二クラスタのクラスタ中心との間の第二距離を取得するための第二取得モジュールと、
    を備え、
    前記認識モジュールが、前記第一距離が前記第二距離よりも小さい場合、前記単語ベクトル空間内の、前記第二単語ベクトルの周囲に位置する所定の数のターゲット単語ベクトルを認識するために用いられる請求項6に記載の装置。
  8. 前記確定モジュールが、
    各々の前記ターゲット単語ベクトルと前記第二単語ベクトルとの間のターゲット類似度値を取得し、前記所定の数のターゲット類似度値を得て、前記所定の数のターゲット類似度値の類似度値総和を取得し、
    前記類似度値総和が所定の閾値よりも大きい場合、前記未知フレーズが前記ターゲットテキストの属する分野のフレーズであると確定し、
    前記類似度値総和が前記所定の閾値よりも小さい場合、前記未知フレーズが前記ターゲットテキストの属する分野のフレーズではないと確定するために用いられる請求項6に記載の装置。
  9. 前記所定の閾値が、前記分野フレーズの数及び所定の通常フレーズの数に関連するものである請求項8に記載の装置。
  10. 前記確定モジュールが、
    前記未知フレーズが前記ターゲットテキストの属する分野のフレーズであると確定した場合、前記未知フレーズを、分野フレーズマイニングモデルの訓練用ポジティブサンプルであって、単語ベクトル変換が行われると、第一クラスタに属するようになる訓練用ポジティブサンプルとし、
    前記未知フレーズが前記ターゲットテキストの属する分野のフレーズではないと確定した場合、前記未知フレーズを、分野フレーズマイニングモデルの訓練用ネガティブサンプルであって、単語ベクトル変換が行われると、第二クラスタに属するようになる訓練用ネガティブサンプルとするために更に用いられ、
    前記分野フレーズマイニングモデルが、ツインネットワーク構造モデルである請求項6に記載の装置。
  11. 少なくとも1つのプロセッサと、
    該少なくとも1つのプロセッサと通信接続されたメモリと、
    を備える電子機器であって、
    前記メモリには、前記少なくとも1つのプロセッサによって実行され得る命令が記憶されており、前記命令が前記少なくとも1つのプロセッサによって実行されることで、前記少なくとも1つのプロセッサが請求項1から5のいずれか一項に記載の方法を実行可能となる電子機器。
  12. コンピュータ命令を記憶した非一時的なコンピュータ読取可能な記憶媒体であって、前記コンピュータ命令が、請求項1から5のいずれか一項に記載の方法をコンピュータに実行させるためのものである非一時的なコンピュータ読取可能な記憶媒体。
  13. コンピュータプログラムを含むコンピュータプログラム製品であって、前記コンピュータプログラムがプロセッサによって実行されると、請求項1から5のいずれか一項に記載の方法が実現されるコンピュータプログラム製品。
JP2022004275A 2021-03-23 2022-01-14 分野フレーズマイニング方法、装置及び電子機器 Active JP7351942B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202110308803.3 2021-03-23
CN202110308803.3A CN112818686B (zh) 2021-03-23 2021-03-23 领域短语挖掘方法、装置和电子设备

Publications (2)

Publication Number Publication Date
JP2022050622A true JP2022050622A (ja) 2022-03-30
JP7351942B2 JP7351942B2 (ja) 2023-09-27

Family

ID=75863512

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022004275A Active JP7351942B2 (ja) 2021-03-23 2022-01-14 分野フレーズマイニング方法、装置及び電子機器

Country Status (4)

Country Link
US (1) US20220138424A1 (ja)
JP (1) JP7351942B2 (ja)
KR (1) KR20220010045A (ja)
CN (1) CN112818686B (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114818693A (zh) * 2022-03-28 2022-07-29 平安科技(深圳)有限公司 一种语料匹配的方法、装置、计算机设备及存储介质
WO2024043355A1 (ko) * 2022-08-23 2024-02-29 주식회사 아카에이아이 언어 데이터를 관리하는 방법 및 그를 이용한 서버
CN115495507B (zh) * 2022-11-17 2023-03-24 江苏鸿程大数据技术与应用研究院有限公司 一种工程材料信息价格匹配方法、系统及存储介质
CN116450830B (zh) * 2023-06-16 2023-08-11 暨南大学 一种基于大数据的智慧校园推送方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010231526A (ja) * 2009-03-27 2010-10-14 Nec Corp 辞書構築装置、辞書構築方法および辞書構築用プログラム
JP2018536920A (ja) * 2016-02-18 2018-12-13 ▲騰▼▲訊▼科技(深▲セン▼)有限公司 テキスト情報処理方法およびデバイス
CN111814474A (zh) * 2020-09-14 2020-10-23 智者四海(北京)技术有限公司 领域短语挖掘方法及装置

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10372739B2 (en) * 2014-03-17 2019-08-06 NLPCore LLC Corpus search systems and methods
US11157539B2 (en) * 2018-06-22 2021-10-26 Microsoft Technology Licensing, Llc Topic set refinement
US10929439B2 (en) * 2018-06-22 2021-02-23 Microsoft Technology Licensing, Llc Taxonomic tree generation
CN110858217A (zh) * 2018-08-23 2020-03-03 北大方正集团有限公司 微博敏感话题的检测方法、装置及可读存储介质
US10459962B1 (en) * 2018-09-19 2019-10-29 Servicenow, Inc. Selectively generating word vector and paragraph vector representations of fields for machine learning
CN110263343B (zh) * 2019-06-24 2021-06-15 北京理工大学 基于短语向量的关键词抽取方法及系统
US11250214B2 (en) * 2019-07-02 2022-02-15 Microsoft Technology Licensing, Llc Keyphrase extraction beyond language modeling
CN110442760B (zh) * 2019-07-24 2022-02-15 银江技术股份有限公司 一种问答检索系统的同义词挖掘方法及装置
CN111949767A (zh) * 2020-08-20 2020-11-17 深圳市卡牛科技有限公司 一种文本关键词的查找方法、装置、设备和存储介质
CN112101043B (zh) * 2020-09-22 2021-08-24 浙江理工大学 一种基于注意力的语义文本相似度计算方法
CN112328655B (zh) * 2020-11-02 2024-05-24 中国平安人寿保险股份有限公司 文本标签挖掘方法、装置、设备及存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010231526A (ja) * 2009-03-27 2010-10-14 Nec Corp 辞書構築装置、辞書構築方法および辞書構築用プログラム
JP2018536920A (ja) * 2016-02-18 2018-12-13 ▲騰▼▲訊▼科技(深▲セン▼)有限公司 テキスト情報処理方法およびデバイス
CN111814474A (zh) * 2020-09-14 2020-10-23 智者四海(北京)技术有限公司 领域短语挖掘方法及装置

Also Published As

Publication number Publication date
JP7351942B2 (ja) 2023-09-27
CN112818686A (zh) 2021-05-18
KR20220010045A (ko) 2022-01-25
US20220138424A1 (en) 2022-05-05
CN112818686B (zh) 2023-10-31

Similar Documents

Publication Publication Date Title
JP2022050622A (ja) 分野フレーズマイニング方法、装置及び電子機器
JP7291183B2 (ja) モデルをトレーニングするための方法、装置、デバイス、媒体、およびプログラム製品
JP7358698B2 (ja) 語義表現モデルの訓練方法、装置、デバイス及び記憶媒体
JP7403605B2 (ja) マルチターゲット画像テキストマッチングモデルのトレーニング方法、画像テキスト検索方法と装置
CN107301170B (zh) 基于人工智能的切分语句的方法和装置
US20220318275A1 (en) Search method, electronic device and storage medium
CN112466288A (zh) 语音识别方法、装置、电子设备及存储介质
US20220270384A1 (en) Method for training adversarial network model, method for building character library, electronic device, and storage medium
JP7297038B2 (ja) ニューラルネットワークモデルの事前トレーニング方法、装置、電子機器及び媒体
CN112749300B (zh) 用于视频分类的方法、装置、设备、存储介质和程序产品
US20220374678A1 (en) Method for determining pre-training model, electronic device and storage medium
US20230215136A1 (en) Method for training multi-modal data matching degree calculation model, method for calculating multi-modal data matching degree, and related apparatuses
CN112527383A (zh) 用于生成多任务模型的方法、装置、设备、介质和程序
CN114970553B (zh) 基于大规模无标注语料的情报分析方法、装置及电子设备
US20220318253A1 (en) Search Method, Apparatus, Electronic Device, Storage Medium and Program Product
KR20220141225A (ko) 음성 인식 방법 및 장치
JP2022095895A (ja) 交通データ予測方法、交通データ予測装置、電子機器、記憶媒体、コンピュータプログラム製品及びコンピュータプログラム
US12007965B2 (en) Method, device and storage medium for deduplicating entity nodes in graph database
US11989516B2 (en) Method and apparatus for acquiring pre-trained model, electronic device and storage medium
KR20240067967A (ko) 음성 웨이크업 방법, 음성 웨이크업 장치, 전자장비, 저장 매체 및 컴퓨터 프로그램
CN113641724B (zh) 知识标签挖掘方法、装置、电子设备及存储介质
CN113570067B (zh) 分布式系统的同步方法、装置
CN113408304B (zh) 文本翻译方法、装置、电子设备及存储介质
CN114756691A (zh) 结构图生成方法、模型的训练方法、图谱生成方法及装置
CN113360602B (zh) 用于输出信息的方法、装置、设备以及存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220114

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230210

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230314

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230614

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230815

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230914

R150 Certificate of patent or registration of utility model

Ref document number: 7351942

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150