JP6577692B1 - 学習システム、学習方法、及びプログラム - Google Patents
学習システム、学習方法、及びプログラム Download PDFInfo
- Publication number
- JP6577692B1 JP6577692B1 JP2019528775A JP2019528775A JP6577692B1 JP 6577692 B1 JP6577692 B1 JP 6577692B1 JP 2019528775 A JP2019528775 A JP 2019528775A JP 2019528775 A JP2019528775 A JP 2019528775A JP 6577692 B1 JP6577692 B1 JP 6577692B1
- Authority
- JP
- Japan
- Prior art keywords
- learning
- attribute value
- attribute
- symbol
- learning device
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/906—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9538—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2155—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
Description
以下、本発明に関わる学習システムの実施形態の例を説明する。図1は、学習システムの全体構成を示す図である。図1に示すように、学習システムSは、サーバ10及びユーザ端末20を含み、これらはネットワークNに接続される。なお、図1では、サーバ10及びユーザ端末20を1台ずつ示しているが、これらは複数台あってもよい。
本実施形態では、学習システムSでは、ユーザが入力した検索条件に基づいて文書が検索される。文書のファイル形式は、種々の形式を適用可能であり、例えば、HTMLファイル、XMLファイル、テキストファイル、又はリッチテキストファイルであってもよい。
図3は、学習システムSで実現される機能の一例を示す機能ブロック図である。図3に示すように、本実施形態では、データ記憶部100、生成部101、学習部102、取得部103、判定部104、及び追加学習制御部105が、サーバ10で実現される。データ記憶部100は、記憶部12を主として実現され、生成部101、学習部102、取得部103、判定部104、及び追加学習制御部105の各々は、制御部11を主として実現される。
データ記憶部100は、ウェブページに関する種々のデータを記憶する。例えば、データ記憶部100は、学習器L、ウェブページデータベースDB、及び教師データDTを記憶する。
生成部101は、複数のウェブページの各々のうち、所定の表記パターンで記述された記号情報を属性値として抽出し、教師データDTの初期データを生成する。初期データは、1回目の学習で用いられる教師データDTである。
学習部102は、複数の属性の各々の属性値を示す教師データDTに基づいて、複数のウェブページの各々に含まれる記号情報を分類する学習器Lを学習させる。学習部102は、教師データDTに基づいて、学習器Lのアルゴリズムの係数を調整することによって、学習器Lを学習させる。
取得部103は、複数のウェブページの各々を学習器Lに入力し、学習器Lにより分類された記号情報を属性値候補として取得する。学習器Lにウェブページが入力されると、学習器Lは、ウェブページから記号情報を抽出する。例えば、学習器Lは、ウェブページの紹介文等の文章を文節に区切り、個々の文節を記号情報として抽出する。
判定部104は、属性値候補が示す記号又は記号列が所定の条件を満たすか否かを判定する。
追加学習制御部105は、判定部104の判定結果に基づいて、属性値候補を用いた学習器Lの追加学習を制御する。
図6は、サーバ10によって実行される処理を示すフロー図である。図6に示す処理は、制御部11が記憶部12に記憶されたプログラムに基づいて動作することによって実行される。図6に示す処理は、図3に示す機能ブロックにより実行される処理の一例である。
なお、本発明は、以上に説明した実施の形態に限定されるものではない。本発明の趣旨を逸脱しない範囲で、適宜変更可能である。
Claims (13)
- 複数の属性の各々の属性値を示す教師データに基づいて、複数の文書の各々に含まれる記号情報を分類する学習器を学習させる学習手段と、
前記複数の文書の各々を前記学習器に入力し、前記学習器により分類された記号情報を属性値候補として取得する取得手段と、
前記属性値候補が示す記号又は記号列が所定の条件を満たすか否かを判定する判定手段と、
前記判定手段の判定結果に基づいて、前記属性値候補を用いた前記学習器の追加学習を制御する追加学習制御手段と、
を含むことを特徴とする学習システム。 - 前記追加学習制御手段は、前記判定手段の判定結果が所定の結果ではない属性値候補が新たな属性値として前記教師データに追加されることを制限し、当該属性値候補を用いた前記学習器の追加学習が行われることを制限する、
ことを特徴とする請求項1に記載の学習システム。 - 前記判定手段は、前記属性値候補が示す記号又は記号列が所定字数未満であるか否かを判定する、
ことを特徴とする請求項1又は2に記載の学習システム。 - 前記判定手段は、前記属性値候補が示す記号又は記号列が特定種類の記号又は記号列であるか否かを判定する、
ことを特徴とする請求項1〜3の何れかに記載の学習システム。 - 前記複数の文書の各々は、マークアップ言語で記述されており、
前記判定手段は、前記属性値候補が示す記号又は記号列がタグ部分であるか否かを判定する、
ことを特徴とする請求項1〜4の何れかに記載の学習システム。 - 前記追加学習制御手段は、前記属性値候補の出現頻度に更に基づいて、前記属性値候補を用いた前記学習器の追加学習を制御する、
ことを特徴とする請求項1〜5の何れかに記載の学習システム。 - 前記追加学習制御手段は、前記学習器により計算された前記属性値候補の蓋然性に更に基づいて、前記属性値候補を用いた前記学習器の追加学習を制御する、
ことを特徴とする請求項1〜6の何れかに記載の学習システム。 - 前記学習システムは、前記複数の文書の各々のうち、所定の表記パターンで記述された記号情報を属性値として抽出し、前記教師データの初期データを生成する生成手段を更に含む、
ことを特徴とする請求項1〜7の何れかに記載の学習システム。 - 前記生成手段は、前記複数の文書の各々の中から複数の表記パターンの各々の出現頻度を取得し、所定頻度以上で出現した表記パターンで記述された記号情報を属性値として抽出し、前記初期データを生成する、
ことを特徴とする請求項8に記載の学習システム。 - 前記学習手段は、前記教師データに基づいて、第1の学習器を学習させ、
前記取得手段は、前記複数の文書の各々を前記第1の学習器に入力し、前記第1の学習器により属性が付与された記号情報を第1の属性値候補として取得し、
前記学習手段は、前記第1の属性値候補に基づいて、第2の学習器を学習させ、
前記取得手段は、複数の文書の各々を前記第2の学習器に入力し、前記第2の学習器により属性が付与された記号情報を第2の属性値候補として取得し、
前記判定手段は、前記第1の属性値候補と前記第2の属性値候補との各々が示す記号又は記号列が前記所定の条件を満たすか否かを判定し、
前記追加学習制御手段は、前記判定手段の判定結果に基づいて、前記第1の属性値候補と前記第2の属性値候補との各々を用いた追加学習を制御する、
ことを特徴とする請求項1〜9の何れかに記載の学習システム。 - 前記取得手段は、前記第1の学習器に入力される前記複数の文書とは異なる複数の文書の各々を前記第2の学習器に入力する、
ことを特徴とする請求項10に記載の学習システム。 - 複数の属性の各々の属性値を示す教師データに基づいて、複数の文書の各々に含まれる記号情報を分類する学習器を学習させる学習ステップと、
前記複数の文書の各々を前記学習器に入力し、前記学習器により分類された記号情報を属性値候補として取得する取得ステップと、
前記属性値候補が示す記号又は記号列が所定の条件を満たすか否かを判定する判定ステップと、
前記判定ステップの判定結果に基づいて、前記属性値候補を用いた前記学習器の追加学習を制御する追加学習制御ステップと、
を含むことを特徴とする学習方法。 - 複数の属性の各々の属性値を示す教師データに基づいて、複数の文書の各々に含まれる記号情報を分類する学習器を学習させる学習手段、
前記複数の文書の各々を前記学習器に入力し、前記学習器により分類された記号情報を属性値候補として取得する取得手段、
前記属性値候補が示す記号又は記号列が所定の条件を満たすか否かを判定する判定手段、
前記判定手段の判定結果に基づいて、前記属性値候補を用いた前記学習器の追加学習を制御する追加学習制御手段、
としてコンピュータを機能させるためのプログラム。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2018/036461 WO2020065970A1 (ja) | 2018-09-28 | 2018-09-28 | 学習システム、学習方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP6577692B1 true JP6577692B1 (ja) | 2019-09-18 |
JPWO2020065970A1 JPWO2020065970A1 (ja) | 2021-01-07 |
Family
ID=67982890
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019528775A Active JP6577692B1 (ja) | 2018-09-28 | 2018-09-28 | 学習システム、学習方法、及びプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US11520835B2 (ja) |
JP (1) | JP6577692B1 (ja) |
WO (1) | WO2020065970A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7488006B2 (ja) | 2019-10-22 | 2024-05-21 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 機械学習を使用した表形式データの内容特定方法、システム、プログラム |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7041374B2 (ja) | 2020-09-04 | 2022-03-24 | ダイキン工業株式会社 | 生成方法、プログラム、情報処理装置、情報処理方法、及び学習済みモデル |
JP6997401B1 (ja) | 2020-09-04 | 2022-01-17 | ダイキン工業株式会社 | 生成方法、プログラム、情報処理装置、情報処理方法、及び学習済みモデル |
WO2023275976A1 (ja) * | 2021-06-29 | 2023-01-05 | 三菱電機株式会社 | 情報処理装置、プログラム及び情報処理方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008027238A (ja) * | 2006-07-21 | 2008-02-07 | Hitachi Ltd | 文書属性値付与装置及びその文書属性値付与方法 |
JP2016076073A (ja) * | 2014-10-06 | 2016-05-12 | 日本電気株式会社 | データ処理装置、データ処理方法、及び、コンピュータ・プログラム |
JP2018081569A (ja) * | 2016-11-17 | 2018-05-24 | 株式会社東芝 | 情報抽出支援装置、情報抽出支援方法およびプログラム |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU2001264928A1 (en) * | 2000-05-25 | 2001-12-03 | Kanisa Inc. | System and method for automatically classifying text |
WO2011148571A1 (ja) | 2010-05-24 | 2011-12-01 | 日本電気株式会社 | 情報抽出システム、方法及びプログラム |
US11250218B2 (en) * | 2015-12-11 | 2022-02-15 | Microsoft Technology Licensing, Llc | Personalizing natural language understanding systems |
US11620843B2 (en) * | 2019-09-10 | 2023-04-04 | Intuit Inc. | Metamodeling for confidence prediction in machine learning based document extraction |
-
2018
- 2018-09-28 WO PCT/JP2018/036461 patent/WO2020065970A1/ja active Application Filing
- 2018-09-28 JP JP2019528775A patent/JP6577692B1/ja active Active
- 2018-09-28 US US16/649,990 patent/US11520835B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008027238A (ja) * | 2006-07-21 | 2008-02-07 | Hitachi Ltd | 文書属性値付与装置及びその文書属性値付与方法 |
JP2016076073A (ja) * | 2014-10-06 | 2016-05-12 | 日本電気株式会社 | データ処理装置、データ処理方法、及び、コンピュータ・プログラム |
JP2018081569A (ja) * | 2016-11-17 | 2018-05-24 | 株式会社東芝 | 情報抽出支援装置、情報抽出支援方法およびプログラム |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7488006B2 (ja) | 2019-10-22 | 2024-05-21 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 機械学習を使用した表形式データの内容特定方法、システム、プログラム |
Also Published As
Publication number | Publication date |
---|---|
US20210224323A1 (en) | 2021-07-22 |
WO2020065970A1 (ja) | 2020-04-02 |
US11520835B2 (en) | 2022-12-06 |
JPWO2020065970A1 (ja) | 2021-01-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108804512B (zh) | 文本分类模型的生成装置、方法及计算机可读存储介质 | |
JP6577692B1 (ja) | 学習システム、学習方法、及びプログラム | |
US10997560B2 (en) | Systems and methods to improve job posting structure and presentation | |
CN111291210B (zh) | 图像素材库生成方法、图像素材推荐方法及相关装置 | |
CN111324771B (zh) | 视频标签的确定方法、装置、电子设备及存储介质 | |
Fakhari et al. | Combination of classification and regression in decision tree for multi-labeling image annotation and retrieval | |
CN103064956A (zh) | 用于搜索电子内容的方法、计算系统和计算机可读介质 | |
CN106708929B (zh) | 视频节目的搜索方法和装置 | |
US20150199567A1 (en) | Document classification assisting apparatus, method and program | |
CN112231494B (zh) | 信息抽取方法、装置、电子设备及存储介质 | |
WO2020056977A1 (zh) | 知识点推送方法、装置及计算机可读存储介质 | |
US20150026159A1 (en) | Digital Resource Set Integration Methods, Interfaces and Outputs | |
JP5510563B2 (ja) | 検索プログラム、検索装置、および検索方法 | |
CN115796181A (zh) | 一种针对化工领域的文本关系抽取方法 | |
CN107357765A (zh) | Word文档碎片化方法及装置 | |
US20200285324A1 (en) | Character inputting device, and non-transitory computer readable recording medium storing character inputting program | |
CN106570196B (zh) | 视频节目的搜索方法和装置 | |
Leonandya et al. | A semi-supervised algorithm for Indonesian named entity recognition | |
JP6621514B1 (ja) | 要約作成装置、要約作成方法、及びプログラム | |
JP2014102625A (ja) | 情報検索システム、プログラム、および方法 | |
KR101078978B1 (ko) | 문서 분류 시스템 | |
CN114842982A (zh) | 一种面向医疗信息系统的知识表达方法、装置及系统 | |
JPWO2014170965A1 (ja) | 文書処理方法、文書処理装置および文書処理プログラム | |
JP4148247B2 (ja) | 語彙獲得方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体 | |
JP2009217406A (ja) | 文書検索装置及び方法、並びに、プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190528 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20190528 |
|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20190711 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190806 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190822 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6577692 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |