JP2020060970A - コンテキスト情報生成方法、コンテキスト情報生成装置およびコンテキスト情報生成プログラム - Google Patents
コンテキスト情報生成方法、コンテキスト情報生成装置およびコンテキスト情報生成プログラム Download PDFInfo
- Publication number
- JP2020060970A JP2020060970A JP2018192040A JP2018192040A JP2020060970A JP 2020060970 A JP2020060970 A JP 2020060970A JP 2018192040 A JP2018192040 A JP 2018192040A JP 2018192040 A JP2018192040 A JP 2018192040A JP 2020060970 A JP2020060970 A JP 2020060970A
- Authority
- JP
- Japan
- Prior art keywords
- word
- vector
- words
- context information
- peripheral
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/232—Orthographic correction, e.g. spell checking or vowelisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/274—Converting codes to words; Guess-ahead of partial word inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/55—Rule-based translation
- G06F40/56—Natural language generation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/26—Techniques for post-processing, e.g. correcting the recognition result
- G06V30/262—Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
- G06V30/274—Syntactic or semantic context, e.g. balancing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/414—Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/416—Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Computing Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Medical Informatics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Databases & Information Systems (AREA)
- Computer Graphics (AREA)
- Geometry (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
[第1の実施の形態]
第1の実施の形態を説明する。
第1の実施の形態のコンテキスト情報生成装置10は、自然言語で記載された文書を分析し、類似する文の検索などの自然言語処理を促進する。コンテキスト情報生成装置10は、機械翻訳や対話システムなどの各種の自然言語処理サービスに用いられてもよい。コンテキスト情報生成装置10は、コンピュータや情報処理装置と言うこともできる。コンテキスト情報生成装置10は、ユーザが操作するクライアント装置でもよいしネットワークを介してアクセスされるサーバ装置でもよい。
次に、第2の実施の形態を説明する。
第2の実施の形態の機械学習装置100は、ニューラルネットワークを用いた機械学習により、自然言語で記載された文書を分析する自然言語処理装置である。機械学習装置100は、分析結果に基づいて、ある文に類似する文を検索することができる。機械学習装置100は、機械翻訳、リコメンデーションシステム、質問回答(Q&A)システムなど、自然言語を扱う各種サービスに利用することができる。機械学習装置100は、コンピュータや情報処理装置と言うこともできる。機械学習装置100は、ユーザが操作するクライアント装置でもよいしネットワークを介してアクセスされるサーバ装置でもよい。
機械学習装置100は、バスに接続されたCPU101、RAM102、HDD103、画像信号処理部104、入力信号処理部105、媒体リーダ106および通信インタフェース107を有する。機械学習装置100は、第1の実施の形態のコンテキスト情報生成装置10に対応する。CPU101は、第1の実施の形態の処理部12に対応する。RAM102またはHDD103は、第1の実施の形態の記憶部11に対応する。
機械学習装置100は、文書記憶部121、ベクトル記憶部122、教師データ記憶部123、単語ベクトル生成部124、コンテキスト情報生成部125、検索部126および語義判定部127を有する。文書記憶部121、ベクトル記憶部122および教師データ記憶部123は、例えば、RAM102またはHDD103の記憶領域を用いて実装される。単語ベクトル生成部124、コンテキスト情報生成部125、検索部126および語義判定部127は、例えば、CPU101が実行するプログラムを用いて実装される。
例えば、検索部126は、コンテキスト情報生成部125と同様にして、入力文に含まれる単語インスタンスに対してコンテキストフィルタを算出し、単語ベクトルにコンテキストフィルタを連結して拡張ベクトルを算出する。検索部126は、ベクトル記憶部122に記憶された拡張ベクトルと入力文の拡張ベクトルとの間で、コンテキストフィルタの部分も含めてコサイン類似度などの類似度の指標値(または、距離の指標値)を算出する。検索部126は、類似度が閾値を超える拡張ベクトル(または、距離が閾値未満である拡張ベクトル)をもつ文を抽出する。単語ベクトルが同じであってもコンテキストフィルタが類似しない単語インスタンスを含む文は抽出されない可能性がある。よって、コンテキストの類似度を考慮して文を絞り込むことができる。
図4は、ニューラルネットワークの例を示す図である。
分散表現の単語ベクトルの算出にはニューラルネットワーク130が用いられる。ニューラルネットワーク130は、多層ニューラルネットワークである。ニューラルネットワーク130は、ニューロンに相当する複数のノードと、シナプスに相当するノード間のエッジとを含む。隣接する層のノードがシナプスで結合される。シナプスには重みが割り当てられ、前の層のノードの値に重みをかけて次の層のノードの値が算出される。ニューラルネットワーク130の学習を通じてシナプスの重みが決定される。
入力層131は、文書に出現し得る複数の単語に対応する複数のノードを含む。入力層131の1つのノードは1つの単語に対応している。基準となる1つの単語が選択されると、当該1つの単語に対応するノードに「1」が入力され、他のノードに「0」が入力される。中間層132は、入力層131の次の層であり入力層131より少ないノードを含む。中間層133は、中間層132の次の層であり中間層132より少ないノードを含む。中間層133はニューラルネットワーク130の中で最も次元数が少ない。
文書141は、文書記憶部121に記憶された文書の一例である。単語ベクトル生成部124は、文書141を文に分割し、文を単語に分割する。文書141から文へは、例えば、日本語の句点を基準にして分割することができる。文から単語へは、例えば、日本語の形態素解析により分割することができる。単語ベクトル生成部124は、文書141から単語インスタンスを抽出する。抽出される単語インスタンスからは、助詞など重要性の低い汎用的な単語の単語インスタンスは除外される。
単語ベクトル生成部124は、周辺単語テーブル142が示す単語と周辺単語の対応関係を用いて、前述のニューラルネットワーク130を学習する。そして、単語ベクトル生成部124は、「考え」、「甘い」、「りんご」、「意義」、「唱える」、「異議」、「行く」、「こと」、「ある」などの単語を1つずつニューラルネットワーク130に入力し、これら単語それぞれの単語ベクトルを算出する。
図7は、拡張ベクトル付き文書の例を示す図である。
文書141の単語インスタンスそれぞれに対しては、各種の自然言語処理を容易にするために拡張ベクトルが付与される。拡張ベクトルは単語ベクトルとコンテキストフィルタを連結したベクトルである。第2の実施の形態では、単語ベクトルが200次元でありコンテキストフィルタが50次元であるため、拡張ベクトルは250次元である。
図8は、コンテキストフィルタの生成方法の例を示す図である。
コンテキスト情報生成部125は、単語インスタンス161を選択する。コンテキスト情報生成部125は、単語インスタンス161の前後n個の単語を周辺単語として抽出する。周辺単語の範囲は、単語ベクトル生成部124が分散表現の単語ベクトルを算出するときの範囲と同じでよい。すなわち、単語インスタンス161と同一の文の範囲であり、かつ、単語インスタンス161の前方に並ぶ高々n個の単語および単語インスタンス161の後方に並ぶ高々n個の単語の範囲である。よって、単語ベクトル生成部124が生成した周辺単語テーブル142を流用することが可能である。
ここでは、図5に示した文書141の3番目の文に含まれる単語インスタンス「意義」についてコンテキストフィルタを生成する場合を考える。
コンテキスト情報生成部125は、周辺単語「唱える」に対応する単語ベクトル171から算出された文脈ベクトル172に、更新後のコンテキストフィルタ177を適用してフィルタ後ベクトル178を算出する。例えば、文脈ベクトル172の1次元目が0.05であり、コンテキストフィルタ177の1次元目が0.60である場合、フィルタ後ベクトル178の1次元目は0.05×0.60=0.03と算出される。
ここでは、図5に示した文書141の5番目の文に含まれる単語インスタンス「意義」についてコンテキストフィルタを生成する場合を考える。
「考えが甘い。」という文と「りんごが甘い。」という文があるとする。この2つの文は同一の単語「甘い」を含んでいるものの、異なる語義として単語「甘い」を使用している。このため、機械翻訳を行う場合は2つの文の「甘い」に対して同一の訳語を割り当てるべきでない。検索部126は、単語「甘い」を含む文のうち前者の語義をもつ文を検索したいときには、コンテキストフィルタを含む拡張ベクトル全体を用いて類似度を計算することで、検索される文を適切に絞り込むことが可能となる。
図12は、単語ベクトル生成の手順例を示すフローチャートである。
(S10)単語ベクトル生成部124は、文書を文に分割し、文を単語に分割する。
(S20)コンテキスト情報生成部125は、文書に含まれる各単語インスタンスにコンテキストフィルタを割り当て、各コンテキストフィルタを初期化する。
(S22)コンテキスト情報生成部125は、文書に含まれる複数の単語インスタンスのうち、現在の参照位置から次の単語インスタンスを選択する。
(S27)コンテキスト情報生成部125は、ステップS26で算出したロスに基づいて、ロスが小さくなるようにコンテキストフィルタを更新する。
図14は、語義判定方法の第1の例を示す図である。
語義判定部127は、2以上の語義をもつ単語について、一部の単語インスタンスに付与された教師ラベルを用いた教師あり学習により、ラベルがまだ付与されていない単語インスタンスの語義を判定して自動的にラベルを付与する。
図15は、語義判定方法の第2の例を示すフローチャートである。
(S40)語義判定部127は、判定対象の単語インスタンスを含む文を取得する。
(S43)語義判定部127は、ステップS41で算出した文脈ベクトルに、ステップS42で取得した2以上のコンテキストフィルタをそれぞれ適用する。これにより、異なる教師ラベルに対応する2以上のフィルタ後ベクトルが算出される。
(S46)語義判定部127は、2以上の教師ラベルのうちステップS45で算出したロスが最小の教師ラベルを選択する。語義判定部127は、判定対象の単語インスタンスの語義が、選択した教師ラベルが示す語義であると判定する。語義判定部127は、判定対象の単語インスタンスに、判定した語義を示すラベルを付与する。
11 記憶部
12 処理部
13 文書
14−1,14−2,14−3 単語ベクトル
15 合算ベクトル
16 パラメータ
17 機械学習モデル
18 コンテキスト情報
Claims (7)
- コンピュータが、
複数の単語を用いて記載された文を含む文書と、前記複数の単語に対応して算出された分散表現の複数の単語ベクトルとを取得し、
前記複数の単語のうちの1つの単語が出現する1つの出現位置から所定範囲内にある2以上の周辺単語を前記文書から抽出し、前記2以上の周辺単語に対応する2以上の単語ベクトルを合算した合算ベクトルを算出し、
周辺単語を推定する所定の機械学習モデルを用いて前記合算ベクトルとパラメータとから前記2以上の周辺単語が推定されるように、前記パラメータを決定し、
前記1つの単語に対応する単語ベクトルと対応付けて、前記1つの出現位置におけるコンテキスト情報として前記パラメータを記憶する、
コンテキスト情報生成方法。 - 前記パラメータは、前記合算ベクトルを前記所定の機械学習モデルに入力される入力ベクトルに変換する変換フィルタである、
請求項1記載のコンテキスト情報生成方法。 - 前記コンピュータが更に、
前記1つの単語に対応する単語ベクトルと対応付けて、前記1つの単語が出現する他の1つの出現位置における他のコンテキスト情報を記憶し、
前記1つの単語に対応する単語ベクトルに加えて、前記コンテキスト情報および前記他のコンテキスト情報を用いて、前記1つの単語を含む文を絞り込む検索処理を行う、
請求項1記載のコンテキスト情報生成方法。 - 前記コンピュータが更に、
前記1つの単語に対応する単語ベクトルと対応付けて、前記1つの単語が出現する他の1つの出現位置における他のコンテキスト情報を記憶し、
前記コンテキスト情報および前記他のコンテキスト情報に基づいて、前記1つの単語の語義を区別するラベルを前記1つの出現位置および前記他の1つの出現位置に付与する、
請求項1記載のコンテキスト情報生成方法。 - 前記コンピュータが更に、
他の1つの単語に対応する単語ベクトルと対応付けて、前記他の1つの単語が出現する他の1つの出現位置における他のコンテキスト情報を記憶し、
前記コンテキスト情報と前記他のコンテキスト情報との距離が閾値以下である場合、前記1つの単語を含む文の検索結果に、前記他の1つの出現位置を含む文を追加する、
請求項1記載のコンテキスト情報生成方法。 - 複数の単語を用いて記載された文を含む文書と、前記複数の単語に対応して算出された分散表現の複数の単語ベクトルとを記憶する記憶部と、
前記複数の単語のうちの1つの単語が出現する1つの出現位置から所定範囲内にある2以上の周辺単語を前記文書から抽出し、前記2以上の周辺単語に対応する2以上の単語ベクトルを合算した合算ベクトルを算出し、周辺単語を推定する所定の機械学習モデルを用いて前記合算ベクトルとパラメータとから前記2以上の周辺単語が推定されるように、前記パラメータを決定し、前記1つの単語に対応する単語ベクトルと対応付けて、前記1つの出現位置におけるコンテキスト情報として前記パラメータを記憶する処理部と、
を有するコンテキスト情報生成装置。 - コンピュータに、
複数の単語を用いて記載された文を含む文書と、前記複数の単語に対応して算出された分散表現の複数の単語ベクトルとを取得し、
前記複数の単語のうちの1つの単語が出現する1つの出現位置から所定範囲内にある2以上の周辺単語を前記文書から抽出し、前記2以上の周辺単語に対応する2以上の単語ベクトルを合算した合算ベクトルを算出し、
周辺単語を推定する所定の機械学習モデルを用いて前記合算ベクトルとパラメータとから前記2以上の周辺単語が推定されるように、前記パラメータを決定し、
前記1つの単語に対応する単語ベクトルと対応付けて、前記1つの出現位置におけるコンテキスト情報として前記パラメータを記憶する、
処理を実行させるコンテキスト情報生成プログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018192040A JP7116309B2 (ja) | 2018-10-10 | 2018-10-10 | コンテキスト情報生成方法、コンテキスト情報生成装置およびコンテキスト情報生成プログラム |
US16/594,201 US11507746B2 (en) | 2018-10-10 | 2019-10-07 | Method and apparatus for generating context information |
CN201910949442.3A CN111046659B (zh) | 2018-10-10 | 2019-10-08 | 上下文信息生成方法、上下文信息生成装置及计算机可读记录介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018192040A JP7116309B2 (ja) | 2018-10-10 | 2018-10-10 | コンテキスト情報生成方法、コンテキスト情報生成装置およびコンテキスト情報生成プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020060970A true JP2020060970A (ja) | 2020-04-16 |
JP7116309B2 JP7116309B2 (ja) | 2022-08-10 |
Family
ID=70159630
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018192040A Active JP7116309B2 (ja) | 2018-10-10 | 2018-10-10 | コンテキスト情報生成方法、コンテキスト情報生成装置およびコンテキスト情報生成プログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US11507746B2 (ja) |
JP (1) | JP7116309B2 (ja) |
CN (1) | CN111046659B (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022264216A1 (ja) * | 2021-06-14 | 2022-12-22 | 富士通株式会社 | 情報処理プログラム、情報処理方法および情報処理装置 |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11275934B2 (en) * | 2019-11-20 | 2022-03-15 | Sap Se | Positional embeddings for document processing |
US11586652B2 (en) * | 2020-05-18 | 2023-02-21 | International Business Machines Corporation | Variable-length word embedding |
US11983208B2 (en) * | 2021-02-16 | 2024-05-14 | International Business Machines Corporation | Selection-based searching using concatenated word and context |
US20220366188A1 (en) * | 2021-04-29 | 2022-11-17 | International Business Machines Corporation | Parameterized neighborhood memory adaptation |
US20240330290A1 (en) * | 2023-03-30 | 2024-10-03 | Samsung Electronics Co., Ltd. | System and method for processing embeddings |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170286397A1 (en) * | 2016-03-30 | 2017-10-05 | International Business Machines Corporation | Predictive Embeddings |
JP2018045361A (ja) * | 2016-09-13 | 2018-03-22 | ヤフー株式会社 | 情報処理装置、情報処理方法、およびプログラム |
Family Cites Families (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3166646B2 (ja) | 1996-12-13 | 2001-05-14 | 日本電気株式会社 | 語義曖昧性解消装置 |
WO2017130089A1 (en) * | 2016-01-26 | 2017-08-03 | Koninklijke Philips N.V. | Systems and methods for neural clinical paraphrase generation |
JP6400037B2 (ja) * | 2016-03-17 | 2018-10-03 | ヤフー株式会社 | 判定装置、および判定方法 |
US10460229B1 (en) * | 2016-03-18 | 2019-10-29 | Google Llc | Determining word senses using neural networks |
US11068658B2 (en) * | 2016-12-07 | 2021-07-20 | Disney Enterprises, Inc. | Dynamic word embeddings |
US10817509B2 (en) * | 2017-03-16 | 2020-10-27 | Massachusetts Institute Of Technology | System and method for semantic mapping of natural language input to database entries via convolutional neural networks |
US10380259B2 (en) * | 2017-05-22 | 2019-08-13 | International Business Machines Corporation | Deep embedding for natural language content based on semantic dependencies |
US11048870B2 (en) * | 2017-06-07 | 2021-06-29 | International Business Machines Corporation | Domain concept discovery and clustering using word embedding in dialogue design |
CN111316281B (zh) * | 2017-07-26 | 2024-01-23 | 舒辅医疗 | 基于机器学习的自然语言情境中数值数据的语义分类方法以及系统 |
CN107957989B9 (zh) * | 2017-10-23 | 2021-01-12 | 创新先进技术有限公司 | 基于集群的词向量处理方法、装置以及设备 |
GB2568233A (en) * | 2017-10-27 | 2019-05-15 | Babylon Partners Ltd | A computer implemented determination method and system |
US12061954B2 (en) * | 2017-10-27 | 2024-08-13 | Intuit Inc. | Methods, systems, and computer program product for dynamically modifying a dynamic flow of a software application |
US20190187955A1 (en) * | 2017-12-15 | 2019-06-20 | Facebook, Inc. | Systems and methods for comment ranking using neural embeddings |
US11080483B1 (en) * | 2018-02-28 | 2021-08-03 | Verisign, Inc. | Deep machine learning generation of domain names leveraging token metadata |
JP6872505B2 (ja) * | 2018-03-02 | 2021-05-19 | 日本電信電話株式会社 | ベクトル生成装置、文ペア学習装置、ベクトル生成方法、文ペア学習方法、およびプログラム |
KR102540774B1 (ko) * | 2018-12-04 | 2023-06-08 | 한국전자통신연구원 | 서브워드 임베딩 및 스킵서트 기반 문장 임베딩 방법 및 장치 |
RU2721190C1 (ru) * | 2018-12-25 | 2020-05-18 | Общество с ограниченной ответственностью "Аби Продакшн" | Обучение нейронных сетей с использованием функций потерь, отражающих зависимости между соседними токенами |
-
2018
- 2018-10-10 JP JP2018192040A patent/JP7116309B2/ja active Active
-
2019
- 2019-10-07 US US16/594,201 patent/US11507746B2/en active Active
- 2019-10-08 CN CN201910949442.3A patent/CN111046659B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170286397A1 (en) * | 2016-03-30 | 2017-10-05 | International Business Machines Corporation | Predictive Embeddings |
JP2018045361A (ja) * | 2016-09-13 | 2018-03-22 | ヤフー株式会社 | 情報処理装置、情報処理方法、およびプログラム |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022264216A1 (ja) * | 2021-06-14 | 2022-12-22 | 富士通株式会社 | 情報処理プログラム、情報処理方法および情報処理装置 |
Also Published As
Publication number | Publication date |
---|---|
CN111046659B (zh) | 2024-04-16 |
CN111046659A (zh) | 2020-04-21 |
JP7116309B2 (ja) | 2022-08-10 |
US20200117710A1 (en) | 2020-04-16 |
US11507746B2 (en) | 2022-11-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108280061B (zh) | 基于歧义实体词的文本处理方法和装置 | |
JP7116309B2 (ja) | コンテキスト情報生成方法、コンテキスト情報生成装置およびコンテキスト情報生成プログラム | |
CN111444320B (zh) | 文本检索方法、装置、计算机设备和存储介质 | |
US20190354810A1 (en) | Active learning to reduce noise in labels | |
CN111506714A (zh) | 基于知识图嵌入的问题回答 | |
US20180068221A1 (en) | System and Method of Advising Human Verification of Machine-Annotated Ground Truth - High Entropy Focus | |
JP2018190188A (ja) | 要約生成装置、要約生成方法及びコンピュータプログラム | |
CN108960338B (zh) | 基于注意力反馈机制的图像自动语句标注方法 | |
US20210117802A1 (en) | Training a Neural Network Using Small Training Datasets | |
US20210174161A1 (en) | Method and apparatus for multi-document question answering | |
CN112101042A (zh) | 文本情绪识别方法、装置、终端设备和存储介质 | |
CN110245349A (zh) | 一种句法依存分析方法、装置及一种电子设备 | |
CN112784009A (zh) | 一种主题词挖掘方法、装置、电子设备及存储介质 | |
JP2019204214A (ja) | 学習装置、学習方法、プログラム及び推定装置 | |
Giri | MTStemmer: A multilevel stemmer for effective word pre-processing in Marathi | |
CN112711944B (zh) | 一种分词方法、系统、分词器生成方法及系统 | |
CN113806489A (zh) | 用于数据集创建的方法、电子设备和计算机程序产品 | |
KR20230015702A (ko) | 비디오-텍스트 검색 학습 장치 및 비디오-텍스트 검색 학습 방법 | |
CN111125329B (zh) | 一种文本信息筛选方法、装置及设备 | |
JP2015018372A (ja) | 表現抽出モデル学習装置、表現抽出モデル学習方法、および、コンピュータ・プログラム | |
CN115017906A (zh) | 一种针对文本中实体的识别方法、装置及存储介质 | |
Vilalta et al. | Studying the impact of the full-network embedding on multimodal pipelines | |
JP7135730B2 (ja) | 要約生成方法及び要約生成プログラム | |
JP2020140674A (ja) | 回答選択装置及びプログラム | |
US12073299B2 (en) | Systems and methods for using contrastive pre-training to generate text and code embeddings |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210709 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20210715 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20210715 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220621 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220628 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220711 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7116309 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |