JP2021149613A - 自然言語処理装置およびプログラム - Google Patents
自然言語処理装置およびプログラム Download PDFInfo
- Publication number
- JP2021149613A JP2021149613A JP2020049602A JP2020049602A JP2021149613A JP 2021149613 A JP2021149613 A JP 2021149613A JP 2020049602 A JP2020049602 A JP 2020049602A JP 2020049602 A JP2020049602 A JP 2020049602A JP 2021149613 A JP2021149613 A JP 2021149613A
- Authority
- JP
- Japan
- Prior art keywords
- vector
- word
- industry
- company
- sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003058 natural language processing Methods 0.000 title claims abstract description 10
- 239000013598 vector Substances 0.000 claims abstract description 202
- 238000004364 calculation method Methods 0.000 claims abstract description 61
- 230000006870 function Effects 0.000 claims description 9
- 239000006185 dispersion Substances 0.000 claims description 2
- 230000010365 information processing Effects 0.000 claims 1
- 238000012545 processing Methods 0.000 abstract description 38
- 238000000034 method Methods 0.000 description 70
- 238000003860 storage Methods 0.000 description 65
- 230000008569 process Effects 0.000 description 61
- 238000010586 diagram Methods 0.000 description 29
- 230000005540 biological transmission Effects 0.000 description 10
- 238000013500 data storage Methods 0.000 description 9
- 238000004891 communication Methods 0.000 description 8
- 238000002360 preparation method Methods 0.000 description 8
- 238000012935 Averaging Methods 0.000 description 6
- 238000007726 management method Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000012217 deletion Methods 0.000 description 3
- 230000037430 deletion Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 206010039203 Road traffic accident Diseases 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1815—Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3322—Query formulation using system suggestions
- G06F16/3323—Query formulation using system suggestions using document space presentation or visualization, e.g. category, hierarchy or range presentation and selection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2228—Indexing structures
- G06F16/2237—Vectors, bitmaps or matrices
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3334—Selection or weighting of terms from queries, including natural language queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3338—Query expansion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3347—Query execution using vector based model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
Description
本実施形態における検索システムは、サーバ100とユーザ端末200を含む。ユーザ端末200は、ネットワーク(たとえば、インターネット、LANや専用線など)を介してサーバ100と接続する。サーバ100は企業データベース120を有している。
企業テーブルは、企業データベース120において管理される。企業テーブルは、企業毎のレコードを有する。企業テーブルのレコードには、企業ID、企業名、事業内容センテンス、事業特性ワードID、主業種IDおよび副業種IDなどが設定されている。事業内容センテンスのフィールドには、一文のみが設定されてもよいし、複数の文が設定されてもよい。事業特性ワードと業種がタグに相当する。この例では、一つの企業につき、2つまで業種のタグを設定できるようになっている。業種のタグを1つしか設定しない場合には、主業種の方を使用する。企業テーブルは、準備フェーズの前に用意される。
事業特性ワードテーブルは、企業データベース120において管理される。事業特性ワードテーブルは、事業特性ワード毎のレコードを有する。事業特性ワードテーブルのレコードには、事業特性ワードIDおよび事業特性ワードが設定される。事業特性ワードテーブルは、準備フェーズの前に用意される。
業種テーブルは、企業データベース120において管理される。業種テーブルは、業種毎のレコードを有する。業種テーブルのレコードには、業種IDおよび業種名が設定される。業種テーブルは、準備フェーズの前に用意される。
単語テーブルは、分散表現モデルに含まれる。単語テーブルは、単語毎のレコードを有する。単語テーブルのレコードには、単語および単語ベクトルが設定される。単語テーブルは、準備フェーズにおいて生成される。
企業ベクトルとは、企業の事業内容センテンス全体の分散表現ベクトルに相当する。企業ベクトルは、事業内容センテンスに含まれる単語の単語ベクトルから生成される。企業ベクトル記憶部は、分散表現モデル格納部130に含まれる。企業ベクトルは、準備フェーズにおいて算出される。企業ベクトルは、事業特性ワードベクトルおよび業種ベクトルの算出の基礎になる。
事業特性ワードベクトルは、事業特性ワードの実践的な意義を示す。事業特性ワードベクトルは、事業特性ワードが設定された企業の企業ベクトルから生成されるものであって、事業特性ワードに相当する単語(たとえば、「地域」)の単語ベクトルとは異なる。事業特性ワードが実際にどのような企業に設定されやすいかによってその意義が決まるという運用上の特性が、事業特性ワードベクトルによって数値化される。事業特性ワードベクトルは、準備フェーズにおいて算出される。
業種ベクトルは、業種タグの実践的な意義を示す。業種ベクトルは、業種タグが設定された企業の企業ベクトルから生成されるものであって、業種名に相当する句(たとえば、「自動車販売業」)の意味ベクトルとは異なる。業種タグが実際にどのような企業に設定されやすいかによってその意義が決まるという運用上の特性が、業種ベクトルによって数値化される。業種ベクトルは、準備フェーズにおいて算出される。
検索クエリの受付画面は、サーバ100で生成され、ユーザ端末200において表示される。この受付画面は、検索クエリの入力領域300の他、スライダー302と、類似語の表示領域304と、事業特性ワードの表示領域306と、業種の表示領域308とを含む。
図9の状態における検索結果として表示される企業情報ボックスを示している。事業内容センテンス、事業特性ワード名、主業種名および副業種名のテキストの中に、「自動車」を含む企業情報が企業データベース120から抽出される。抽出された企業情報に含まれる企業名が表示領域322に表示される。同じく事業内容センテンスが表示領域324に表示される。同じく事業特性ワードが表示領域326に表示される。同じく主業種が表示領域328に表示される。同じく副業種が表示領域330に表示される。この例以外にも「自動車」を含む企業情報があれば、検索結果画面においてボックス一覧として表示される。なお、検索結果画面は、検索クエリの受付画面の下方にならんで表示される。検索クエリが入力されると、自動的に検索が行われて検索結果画面が表示される。
ユーザがスライダー302を操作して、スライダー値を小さくすると、第1基準値、第2基準値および第3基準値が小さくなり、条件を満たす類似語、事業特性ワードおよび業種が現れる。
ユーザがスライダー302を操作して、スライダー値をさらに小さくすると、第1基準値、第2基準値および第3基準値がさらに小さくなり、条件を満たす類似語、事業特性ワードおよび業種が増える。
利用フェーズにおいて検索クエリが入力されると、それに応じて類似語リストが生成される。類似語リストは、関連語句記憶部140に記憶される。類似語リストは、各単語に対応付けて、その単語と検索クエリの語句との類似度を記憶している。類似語リストは、類似度の降順にソートされている。
利用フェーズにおいて検索クエリが入力されると、それに応じて事業特性ワードリストが生成される。事業特性ワードリストは、関連語句記憶部140に記憶される。事業特性ワードリストは、各事業特性ワードに対応付けて、その事業特性ワードと検索クエリの語句との類似度を記憶している。事業特性ワードリストは、類似度の降順にソートされている。
利用フェーズにおいて検索クエリが入力されると、それに応じて業種リストが生成される。業種リストは、関連語句記憶部140に記憶される。業種リストは、各業種に対応付けて、その業種と検索クエリの語句との類似度を記憶している。業種リストは、類似度の降順にソートされている。
この例では、検索クエリの語句に類似する事業特性ワード「高級」の文字列が、事業特性ワード名と一致するので、この企業情報が検索結果として表示される。なお、「高級」の文字列が、事業内容センテンス、主業種名あるいは副業種名に含まれる場合にもヒットする。つまり、事業内容センテンス、主業種名あるいは副業種名も探索範囲とする。ただし、事業内容センテンス、主業種名あるいは副業種名を探索範囲としなくてもよい。
この例では、検索クエリの語句に類似する業種「住宅販売業」の文字列が、主業種名と一致するので、この企業情報が検索結果として表示される。なお、「住宅販売業」の文字列が、事業内容センテンス、事業特性ワードあるいは主業種名に含まれる場合にもヒットする。つまり、事業内容センテンス、事業特性ワードあるいは副業種名も探索範囲とする。ただし、事業内容センテンス、事業特性ワードあるいは副業種名を探索範囲としなくてもよい。
サーバ100の各構成要素は、CPU(Central Processing Unit)および各種コプロセッサなどの演算器、メモリやストレージといった記憶装置、それらを連結する有線または無線の通信線を含むハードウェアと、記憶装置に格納され、演算器に処理命令を供給するソフトウェアによって実現される。コンピュータプログラムは、デバイスドライバ、オペレーティングシステム、それらの上位層に位置する各種アプリケーションプログラム、また、これらのプログラムに共通機能を提供するライブラリによって構成されてもよい。図示した各ブロックは、ハードウェア単位の構成ではなく、機能単位のブロックを示している。
送信部180は、各種画面データを送信する画面データ送信部182を含む。受信部170は、検索クエリ受信部172およびスライダー値受信部174を含む。検索クエリ受信部172は、検索クエリを受信する。スライダー値受信部174は、スライダー値を受信する。
モデル生成部152は、単語ベクトルを算出する分散表現モデル生成処理を実行する。企業ベクトル算出部154は、企業ベクトル算出処理を実行する。事業特性ワードベクトル算出部156は、事業特性ワードベクトル算出処理を実行する。業種ベクトル算出部158は、業種ベクトル算出処理を実行する。画面データ生成部160は、各種画面データを生成する。検索部162は、企業情報の検索を行う。
企業データベース120は、企業テーブル格納部122、事業特性ワードテーブル格納部124および業種テーブル格納部126を含む。企業テーブル格納部122は、企業テーブル(図2)を格納する。事業特性ワードテーブル格納部124は、事業特性ワードテーブル(図3)を格納する。業種テーブル格納部126は、業種テーブル(図4)を格納する。
単語テーブル格納部132は、単語テーブル(図5)を格納する。企業ベクトル記憶部134については、図6に関連して説明した。事業特性ワードベクトル記憶部136については、図7に関連して説明した。業種ベクトル記憶部138については、図8に関連して説明した。
類似語リスト記憶部142は、類似語リスト(図13)を記憶する。事業特性ワードリスト記憶部144は、事業特性ワードリスト(図14)を記憶する。業種リスト記憶部146は、業種リスト(図15)を記憶する。
まず、モデル生成部152は、分散表現モデル生成処理を実行する。(S20)。分散表現モデル生成処理では、分散表現モデルとして単語テーブル(図5)が生成される。分散表現モデル生成処理については、図21に関連して後述する。
モデル生成部152は、企業テーブルからコーパスを生成する(S30)。コーパスとは、自然言語の文章を構造化した大規模データである。コーパスは、データ格納部110に保持される。具体的には、モデル生成部152は、各企業の事業内容センテンスから抽出される文ごとに、形態素解析を行って分かち書き形式に変換する。分かち書きとは、単語の間を余白で空けて区切る文字列である。分かち書き形式のデータが、コーパスとなる。
企業ベクトル算出部154は、企業毎に以下の処理を繰り返す(S40)。企業ベクトル算出部154は、この企業の事業内容センテンスに含まれる各文の文ベクトルを算出する(S42)。文に含まれる単語の単語ベクトルから、文ベクトルが生成される。生成方法は、例えば平均化である。つまり、文ベクトルは、単語ベクトルの平均ベクトルである。
事業特性ワードベクトル算出部156は、事業特性ワード毎に以下の処理を繰り返す(S50)。事業特性ワードベクトル算出部156は、企業テーブルを参照して、この事業特性ワードが設定されている企業を選出する(S52)。
が終われば(S56のY)、S26の処理に戻る。
業種ベクトル算出部158は、業種毎に以下の処理を繰り返す(S60)。業種ベクトル算出部158は、企業テーブルを参照して、この業種が設定されている企業を選出する(S62)。
検索クエリ受信部172が、検索クエリの受付画面を表示しているユーザ端末200から検索クエリを受信した場合には(S70のY)、画面データ生成部160は、リスト生成処理を実行する(S72)。リスト生成処理では、類似語リスト(図13)、事業特性ワードリスト(図14)および業種リスト(図15)が生成される。リスト生成処理に関しては、図26に関連して後述する。
画面データ生成部160は、全単語について検索クエリとの類似度を算出する(S90)。検索クエリが単語であれば、その単語の単語ベクトルを検索クエリの意味ベクトルとする。検索クエリが句であれば、その句に含まれる単語の単語ベクトルから検索クエリの意味ベクトルを生成する。生成の方法は、たとえば平均化である。そして、各単語の単語ベクトルと検索クエリの意味ベクトルの類似度を求める。画面データ生成部160は、たとえばコサイン類似度を計算する。以下の類似度についても同様である。
画面データ生成部160は、第1基準値以上の類似度を有する類似語を、検索クエリの受付画面における類似語の表示領域304に配置する(S110)。画面データ生成部160は、第2基準値以上の類似度を有する事業特性ワードを、検索クエリの受付画面における事業特性ワードの領域306に配置する(S112)。さらに、画面データ生成部160は、第3基準値以上の類似度を有する業種を、検索クエリの受付画面における業種の領域308に配置する(S114)。
検索クエリの受付画面に表示された類似語、事業特性ワードおよび業種のうち不要なものを削除できるようにしてもよい。ユーザ操作によって、不要な類似語、事業特性ワードまたは業種が指示されると、ユーザ端末200から類似語、事業特性ワードまたは業種の削除要求がサーバ100へ送信される。サーバ100の要求受信部(不図示)が削除要求を受信すると、削除部(不図示)は、類似語リスト、事業特性ワードリストまたは業種リストから不要な類似語、事業特性ワードまたは業種を消去する。そして、サーバ100は、改めてリスト生成処理、画面生成処理および画面データ送信処理を行う。
Claims (5)
- 分類語に紐づけられる複数のセンテンスを管理するデータベースに関して、前記複数のセンテンスに含まれる単語の分散ベクトルを算出する第1算出部と、
各センテンスに含まれる単語の分散ベクトルに基づいて、当該センテンスの分散ベクトルを算出する第2算出部と、
同じ分類語に紐づけられる各センテンスの分散ベクトルに基づいて、当該分類語の分散ベクトルを算出する第3算出部と、を備えることを特徴とする自然言語処理装置。 - 語句を入力する入力部と、
入力された前記語句の分散ベクトルと類似する分散ベクトルの分類語を選択する選択部と、
選択された前記分類語を出力する出力部と、をさらに備えることを特徴とする請求項1に記載の自然言語処理装置。 - 前記選択部が、複数の分類語を選択し、
前記出力部は、選択された前記複数の分類語を、入力された前記語句の前記分散ベクトルとの類似度の順に並べて出力することを特徴とする請求項2に記載の自然言語処理装置。 - 前記出力部は、入力された前記語句の前記分散ベクトルと選択された前記分類語の前記分散ベクトルとの類似度を出力することを特徴とする請求項3に記載の自然言語処理装置。
- 分類語に紐づけられる複数のセンテンスを管理するデータベースに関して、前記複数のセンテンスに含まれる単語の分散ベクトルを算出する第1算出機能と、
各センテンスに含まれる単語の分散ベクトルに基づいて、当該センテンスの分散ベクトルを算出する第2算出機能と、
同じ分類語に紐づけられる各センテンスの分散ベクトルに基づいて、当該分類語の分散ベクトルを算出する第3算出機能と、
を情報処理装置に発揮させることを特徴とするプログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020049602A JP2021149613A (ja) | 2020-03-19 | 2020-03-19 | 自然言語処理装置およびプログラム |
CN202010206312.3A CN113495950A (zh) | 2020-03-19 | 2020-03-23 | 自然语言处理装置和程序 |
US16/829,508 US11308941B2 (en) | 2020-03-19 | 2020-03-25 | Natural language processing apparatus and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020049602A JP2021149613A (ja) | 2020-03-19 | 2020-03-19 | 自然言語処理装置およびプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2021149613A true JP2021149613A (ja) | 2021-09-27 |
Family
ID=77748420
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020049602A Pending JP2021149613A (ja) | 2020-03-19 | 2020-03-19 | 自然言語処理装置およびプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US11308941B2 (ja) |
JP (1) | JP2021149613A (ja) |
CN (1) | CN113495950A (ja) |
Family Cites Families (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5857179A (en) * | 1996-09-09 | 1999-01-05 | Digital Equipment Corporation | Computer method and apparatus for clustering documents and automatic generation of cluster keywords |
US7428529B2 (en) * | 2004-04-15 | 2008-09-23 | Microsoft Corporation | Term suggestion for multi-sense query |
US7752220B2 (en) * | 2005-08-10 | 2010-07-06 | Yahoo! Inc. | Alternative search query processing in a term bidding system |
US7873595B2 (en) * | 2006-02-24 | 2011-01-18 | Google Inc. | Computing a group of related companies for financial information systems |
US8751496B2 (en) * | 2010-11-16 | 2014-06-10 | International Business Machines Corporation | Systems and methods for phrase clustering |
KR20120052636A (ko) * | 2010-11-16 | 2012-05-24 | 한국전자통신연구원 | 온톨로지 기반의 품목분류코드 추천 시스템 및 방법 |
US9092425B2 (en) * | 2010-12-08 | 2015-07-28 | At&T Intellectual Property I, L.P. | System and method for feature-rich continuous space language models |
US20120253792A1 (en) * | 2011-03-30 | 2012-10-04 | Nec Laboratories America, Inc. | Sentiment Classification Based on Supervised Latent N-Gram Analysis |
US9037464B1 (en) * | 2013-01-15 | 2015-05-19 | Google Inc. | Computing numeric representations of words in a high-dimensional space |
US9842105B2 (en) * | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10248718B2 (en) * | 2015-07-04 | 2019-04-02 | Accenture Global Solutions Limited | Generating a domain ontology using word embeddings |
US10606946B2 (en) * | 2015-07-06 | 2020-03-31 | Microsoft Technology Licensing, Llc | Learning word embedding using morphological knowledge |
CN107220231A (zh) * | 2016-03-22 | 2017-09-29 | 索尼公司 | 用于自然语言处理的电子设备和方法以及训练方法 |
WO2017163346A1 (ja) * | 2016-03-23 | 2017-09-28 | 株式会社野村総合研究所 | 文章解析システム及びプログラム |
US10599731B2 (en) * | 2016-04-26 | 2020-03-24 | Baidu Usa Llc | Method and system of determining categories associated with keywords using a trained model |
US10719509B2 (en) * | 2016-10-11 | 2020-07-21 | Google Llc | Hierarchical quantization for fast inner product search |
WO2018126325A1 (en) * | 2017-01-06 | 2018-07-12 | The Toronto-Dominion Bank | Learning document embeddings with convolutional neural network architectures |
US10747793B2 (en) * | 2017-10-27 | 2020-08-18 | Microsoft Technology Licensing, Llc | Expanding search queries |
US20190129995A1 (en) * | 2017-10-27 | 2019-05-02 | Microsoft Technology Licensing, Llc | Expanding search queries |
JP6767342B2 (ja) * | 2017-11-15 | 2020-10-14 | ヤフー株式会社 | 検索装置、検索方法および検索プログラム |
CN110196905A (zh) * | 2018-02-27 | 2019-09-03 | 株式会社理光 | 一种生成词表示的方法、装置及计算机可读存储介质 |
JP7006402B2 (ja) * | 2018-03-14 | 2022-01-24 | 富士通株式会社 | クラスタリングプログラム、クラスタリング方法およびクラスタリング装置 |
CN110866117B (zh) * | 2019-10-25 | 2021-09-03 | 西安交通大学 | 一种基于语义增强与多层次标签嵌入的短文本分类方法 |
-
2020
- 2020-03-19 JP JP2020049602A patent/JP2021149613A/ja active Pending
- 2020-03-23 CN CN202010206312.3A patent/CN113495950A/zh active Pending
- 2020-03-25 US US16/829,508 patent/US11308941B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
US11308941B2 (en) | 2022-04-19 |
US20210295830A1 (en) | 2021-09-23 |
CN113495950A (zh) | 2021-10-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8190556B2 (en) | Intellegent data search engine | |
US8131684B2 (en) | Adaptive archive data management | |
Rusyn et al. | Model and architecture for virtual library information system | |
US9443245B2 (en) | Opinion search engine | |
JP5721818B2 (ja) | 検索におけるモデル情報群の使用 | |
US7996437B2 (en) | Program for mapping of data schema | |
US20040030687A1 (en) | Information collection system and method | |
WO2013149220A1 (en) | Centralized tracking of user interest information from distributed information sources | |
CN102375885A (zh) | 一种提供与查询序列相对应的搜索建议的方法与设备 | |
JP2016533598A (ja) | ウェブサイト・トラフィック最適化の改善 | |
KR20100044669A (ko) | 이미지 매칭에 기초한 상품 정보 제공 방법, 시스템 및 컴퓨터 판독 가능한 기록 매체 | |
US20100042610A1 (en) | Rank documents based on popularity of key metadata | |
US8463770B1 (en) | System and method for conditioning search results | |
US9552415B2 (en) | Category classification processing device and method | |
JP2008117010A (ja) | 文書作成支援装置、文書作成支援システム | |
CN114254201A (zh) | 一种科技项目评审专家的推荐方法 | |
CN101937432A (zh) | 一种按照供需信息进行两方撮合的系统与方法 | |
CN115239214B (zh) | 企业的评估处理方法、装置及电子设备 | |
O’Riain et al. | Linked data driven information systems as an enabler for integrating financial data | |
JP5135412B2 (ja) | 文書分析装置およびプログラム | |
Das et al. | Case study of trend mining in Transportation Research Record articles | |
JP2003271609A (ja) | 情報監視装置及び情報監視方法 | |
WO2014084141A1 (ja) | 文書管理システムおよび文書管理方法並びに文書管理プログラム | |
JP2021149613A (ja) | 自然言語処理装置およびプログラム | |
Wu et al. | [Retracted] Using the Mathematical Model on Precision Marketing with Online Transaction Data Computing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230302 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20231221 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20231226 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20240129 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240402 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240618 |