JP2018173909A - 学習プログラム、学習方法および学習装置 - Google Patents
学習プログラム、学習方法および学習装置 Download PDFInfo
- Publication number
- JP2018173909A JP2018173909A JP2017072972A JP2017072972A JP2018173909A JP 2018173909 A JP2018173909 A JP 2018173909A JP 2017072972 A JP2017072972 A JP 2017072972A JP 2017072972 A JP2017072972 A JP 2017072972A JP 2018173909 A JP2018173909 A JP 2018173909A
- Authority
- JP
- Japan
- Prior art keywords
- query
- document
- model
- score
- conforming
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/23—Updating
- G06F16/2365—Ensuring data consistency and integrity
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2453—Query optimisation
- G06F16/24534—Query rewriting; Transformation
- G06F16/24542—Plan optimisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Operations Research (AREA)
- Computer Security & Cryptography (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】学習装置10は、クエリおよびクエリに適合する正解のラベルが付与された適合文書を取得し、クエリをN次元のベクトルへ変換する第1のモデルを参照することにより得られるクエリのN次元のベクトルと、文書をN次元のベクトルへ変換する第2のモデルを参照することにより得られる適合文書のN次元のベクトルとから、適合文書のスコアを算出し、クエリに適合しない不正解のラベルが付与された非適合文書の候補を取得し、候補ごとに、第2のモデルを参照することにより得られる候補のN次元のベクトルと、クエリのN次元のベクトルとから、候補のスコアを算出し、候補のスコアが最大である候補を非適合文書として選択し、適合文書のスコアと、非適合文書のスコアとに基づいて、第1のモデル及び第2のモデルを更新するか否かを制御する。
【選択図】図1
Description
SSIでは、クエリおよび文書が同じ次元のベクトルへ変換される。以下では、クエリのベクトル変換に用いるモデルのことを「第1のモデル」と記載し、文書のベクトル変換に用いるモデルのことを「第2のモデル」と記載する場合がある。
以上のようなスコア計算の下、学習時には、クエリ、適合文書および非適合文書を含む学習サンプルごとに、第1のモデル12Aおよび第2のモデル12Bのパラメータが学習される。ここで言う「適合文書」とは、クエリに適合する正解のラベルが付与された文書を指す一方で、「非適合文書」とは、クエリに適合しない不正解のラベルが付与された文書を指す。
図1に示す学習装置10は、上記の学習処理を実現するコンピュータである。
図11は、実施例1に係る学習処理の手順を示すフローチャートである。この処理は、一例として、学習の開始指示が受け付けられた場合に実行される。図11に示すように、更新部18は、モデル記憶部12に記憶された第1のモデル12AのパラメータU及び第2のモデル12BのパラメータVに初期値を設定する(ステップS101)。例えば、平均「0」および標準偏差「1」の正規分布の範囲で乱数を発生させることにより、パラメータU及びパラメータVの初期値を与える。
上述してきたように、本実施例に係る学習装置10は、所定数Lの非適合文書の候補ごとにクエリに対する候補のスコアを算出した上で最大のスコアを持つ候補を非適合文書として選択する。その上で、本実施例に係る学習装置10は、非適合文書のスコアが適合文書のスコアよりも大きいか否かにより、第1のモデル12A及び第2のモデル12Bのパラメータを更新するか否かを制御する。これによって、クエリに対する非適合文書として簡単な文書が選択されることによりモデルの更新頻度が減少するのを抑制できる。したがって、本実施例に係る学習装置10によれば、モデルの完成度の低下を抑制する。
また、図示した各装置の各構成要素は、必ずしも物理的に図示の如く構成されておらずともよい。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。例えば、第1の取得部13、第1の算出部14、第2の取得部15、第2の算出部16、選択部17または更新部18を学習装置10の外部装置としてネットワーク経由で接続するようにしてもよい。また、第1の取得部13、第1の算出部14、第2の取得部15、第2の算出部16、選択部17または更新部18を別の装置がそれぞれ有し、ネットワーク接続されて協働することで、上記の学習装置10の機能を実現するようにしてもよい。また、学習データ記憶部11またはモデル記憶部12に記憶される情報の全部または一部を別の装置がそれぞれ有し、ネットワーク接続されて協働することで、上記の学習装置10の機能を実現するようにしてもかまわない。
また、上記の実施例で説明した各種の処理は、予め用意されたプログラムをパーソナルコンピュータやワークステーションなどのコンピュータで実行することによって実現することができる。そこで、以下では、図12を用いて、上記の実施例と同様の機能を有する学習プログラムを実行するコンピュータの一例について説明する。
11 学習データ記憶部
12 モデル記憶部
13 第1の取得部
14 第1の算出部
15 第2の取得部
16 第2の算出部
17 選択部
18 更新部
Claims (5)
- クエリおよび前記クエリに適合する正解のラベルが付与された適合文書を取得し、
クエリをN次元のベクトルへ変換する第1のモデルを参照することにより得られる前記クエリの前記N次元のベクトルと、文書を前記N次元のベクトルへ変換する第2のモデルを参照することにより得られる前記適合文書の前記N次元のベクトルとから、前記クエリに対する前記適合文書のスコアを算出し、
前記クエリに適合しない不正解のラベルが付与された非適合文書の候補を取得し、
前記候補ごとに、前記第2のモデルを参照することにより得られる前記候補の前記N次元のベクトルと、前記クエリの前記N次元のベクトルとから、前記クエリに対する前記候補のスコアを算出し、
前記クエリに対する前記候補のスコアが最大である候補を前記非適合文書として選択し、
前記クエリに対する前記適合文書のスコアと、前記クエリに対する前記非適合文書のスコアとに基づいて、前記第1のモデル及び前記第2のモデルを更新するか否かを制御する、
処理をコンピュータに実行させることを特徴とする学習プログラム。 - 前記非適合文書の候補を取得する処理は、前記クエリに含まれる単語と、所定の文書集合に含まれる単語とのキーワードの一致度に基づくランキングを行うことにより得られたランキング結果から上位所定数の文書を前記非適合文書の候補として取得することを特徴とする請求項1に記載の学習プログラム。
- 前記制御する処理は、前記クエリに対する前記適合文書のスコアが前記クエリに対する前記非適合文書のスコアよりも小さい場合、前記第1のモデル及び前記第2のモデルを更新することを特徴とする請求項1または2に記載の学習プログラム。
- クエリおよび前記クエリに適合する正解のラベルが付与された適合文書を取得し、
クエリをN次元のベクトルへ変換する第1のモデルを参照することにより得られる前記クエリの前記N次元のベクトルと、文書を前記N次元のベクトルへ変換する第2のモデルを参照することにより得られる前記適合文書の前記N次元のベクトルとから、前記クエリに対する前記適合文書のスコアを算出し、
前記クエリに適合しない不正解のラベルが付与された非適合文書の候補を取得し、
前記候補ごとに、前記第2のモデルを参照することにより得られる前記候補の前記N次元のベクトルと、前記クエリの前記N次元のベクトルとから、前記クエリに対する前記候補のスコアを算出し、
前記クエリに対する前記候補のスコアが最大である候補を前記非適合文書として選択し、
前記クエリに対する前記適合文書のスコアと、前記クエリに対する前記非適合文書のスコアとに基づいて、前記第1のモデル及び前記第2のモデルを更新するか否かを制御する、
処理をコンピュータが実行することを特徴とする学習方法。 - クエリおよび前記クエリに適合する正解のラベルが付与された適合文書を取得する第1の取得部と、
クエリをN次元のベクトルへ変換する第1のモデルを参照することにより得られる前記クエリの前記N次元のベクトルと、文書を前記N次元のベクトルへ変換する第2のモデルを参照することにより得られる前記適合文書の前記N次元のベクトルとから、前記クエリに対する前記適合文書のスコアを算出する第1の算出部と、
前記クエリに適合しない不正解のラベルが付与された非適合文書の候補を取得する第2の取得部と、
前記候補ごとに、前記第2のモデルを参照することにより得られる前記候補の前記N次元のベクトルと、前記クエリの前記N次元のベクトルとから、前記クエリに対する前記候補のスコアを算出する第2の算出部と、
前記クエリに対する前記候補のスコアが最大である候補を前記非適合文書として選択する選択部と、
前記クエリに対する前記適合文書のスコアと、前記クエリに対する前記非適合文書のスコアとに基づいて、前記第1のモデル及び前記第2のモデルを更新するか否かを制御する更新部と、
を有することを特徴とする学習装置。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017072972A JP6819420B2 (ja) | 2017-03-31 | 2017-03-31 | 学習プログラム、学習方法および学習装置 |
US15/935,583 US20180285742A1 (en) | 2017-03-31 | 2018-03-26 | Learning method, learning apparatus, and storage medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017072972A JP6819420B2 (ja) | 2017-03-31 | 2017-03-31 | 学習プログラム、学習方法および学習装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018173909A true JP2018173909A (ja) | 2018-11-08 |
JP6819420B2 JP6819420B2 (ja) | 2021-01-27 |
Family
ID=63669626
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017072972A Active JP6819420B2 (ja) | 2017-03-31 | 2017-03-31 | 学習プログラム、学習方法および学習装置 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20180285742A1 (ja) |
JP (1) | JP6819420B2 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021097515A1 (en) * | 2019-11-20 | 2021-05-27 | Canva Pty Ltd | Systems and methods for generating document score adjustments |
US11768867B2 (en) | 2021-12-16 | 2023-09-26 | Rovi Guides, Inc. | Systems and methods for generating interactable elements in text strings relating to media assets |
US11853341B2 (en) * | 2021-12-16 | 2023-12-26 | Rovi Guides, Inc. | Systems and methods for generating interactable elements in text strings relating to media assets |
CN114334067B (zh) * | 2022-03-10 | 2022-07-19 | 上海柯林布瑞信息技术有限公司 | 临床数据的标签处理方法和装置 |
-
2017
- 2017-03-31 JP JP2017072972A patent/JP6819420B2/ja active Active
-
2018
- 2018-03-26 US US15/935,583 patent/US20180285742A1/en not_active Abandoned
Also Published As
Publication number | Publication date |
---|---|
JP6819420B2 (ja) | 2021-01-27 |
US20180285742A1 (en) | 2018-10-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108804641B (zh) | 一种文本相似度的计算方法、装置、设备和存储介质 | |
CN110162695B (zh) | 一种信息推送的方法及设备 | |
CN107436875B (zh) | 文本分类方法及装置 | |
JP6634515B2 (ja) | 自動質問応答システムにおける質問クラスタリング処理方法及び装置 | |
JP6819420B2 (ja) | 学習プログラム、学習方法および学習装置 | |
US10482146B2 (en) | Systems and methods for automatic customization of content filtering | |
CN110737756B (zh) | 确定针对用户输入数据的应答的方法、装置、设备和介质 | |
EP3210133A1 (en) | Tagging personal photos with deep networks | |
CN109241243B (zh) | 候选文档排序方法及装置 | |
US20150309988A1 (en) | Evaluating Crowd Sourced Information Using Crowd Sourced Metadata | |
JPWO2016001998A1 (ja) | 類似度算出システム、類似度算出方法およびプログラム | |
US10268655B2 (en) | Method, device, server and storage medium of searching a group based on social network | |
CN108182200B (zh) | 基于语义相似度的关键词拓展方法和装置 | |
CN112434533B (zh) | 实体消歧方法、装置、电子设备及计算机可读存储介质 | |
JP2017151926A (ja) | 情報処理プログラム、情報処理装置および情報処理方法 | |
JP2022117941A (ja) | イメージ検索方法、装置、電子機器、及びコンピュータ読み取り可能な記憶媒体 | |
JP6311000B1 (ja) | 生成装置、生成方法、及び生成プログラム | |
CN114490923A (zh) | 相似文本匹配模型的训练方法、装置、设备及存储介质 | |
JP2017219899A (ja) | ナレッジ検索装置、ナレッジ検索方法、および、ナレッジ検索プログラム | |
CN112506864A (zh) | 文件检索的方法、装置、电子设备及可读存储介质 | |
CN117435685A (zh) | 文档检索方法、装置、计算机设备、存储介质和产品 | |
CN108170665B (zh) | 基于综合相似度的关键词拓展方法和装置 | |
CN107622048B (zh) | 一种文本模式识别方法及系统 | |
JP6495206B2 (ja) | 文書概念ベース生成装置、文書概念検索装置、方法、及びプログラム | |
CN111723179B (zh) | 基于概念图谱的反馈模型信息检索方法、系统及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200115 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20201120 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20201201 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20201214 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6819420 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |