JP2019053730A - 文書のカテゴリ分類のためのディープラーニング学習方法およびそのシステム - Google Patents
文書のカテゴリ分類のためのディープラーニング学習方法およびそのシステム Download PDFInfo
- Publication number
- JP2019053730A JP2019053730A JP2018169490A JP2018169490A JP2019053730A JP 2019053730 A JP2019053730 A JP 2019053730A JP 2018169490 A JP2018169490 A JP 2018169490A JP 2018169490 A JP2018169490 A JP 2018169490A JP 2019053730 A JP2019053730 A JP 2019053730A
- Authority
- JP
- Japan
- Prior art keywords
- category
- learning
- document
- vector
- correct answer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 74
- 238000013135 deep learning Methods 0.000 title abstract description 6
- 239000013598 vector Substances 0.000 claims description 84
- 238000005070 sampling Methods 0.000 claims description 26
- 238000004590 computer program Methods 0.000 claims description 8
- 238000013507 mapping Methods 0.000 claims description 3
- 230000015654 memory Effects 0.000 description 19
- 230000008569 process Effects 0.000 description 16
- 238000004891 communication Methods 0.000 description 14
- 238000010586 diagram Methods 0.000 description 14
- 238000012545 processing Methods 0.000 description 10
- 230000004044 response Effects 0.000 description 6
- 230000006870 function Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 208000006930 Pseudomyxoma Peritonei Diseases 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 229920000306 polymethylpentene Polymers 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/20—Education
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Tourism & Hospitality (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Educational Administration (AREA)
- Educational Technology (AREA)
- General Business, Economics & Management (AREA)
- Economics (AREA)
- Marketing (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- Primary Health Care (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
コンピュータによって実現されるカテゴリ学習方法であって、前記カテゴリ学習方法とは、文書のカテゴリとして階層構造を有するカテゴリを学習するものであり、各学習文書に対し、前記学習文書にマーキングされた正解カテゴリに基づいて前記正解カテゴリと異なる誤答カテゴリを選定する段階、および前記学習文書に対し、前記正解カテゴリと前記誤答カテゴリを共に学習することによって文書自動分類のための学習モデルを構築する段階を含む、カテゴリ学習方法を提供する。
以下、本発明の実施形態について、添付の図面を参照しながら詳細に説明する。
310:学習データ選定部
320:カテゴリ学習部
330:カテゴリ分類部
Claims (17)
- コンピュータによって実現されるカテゴリ学習方法であって、
前記カテゴリ学習方法とは、文書のカテゴリとして階層構造を有するカテゴリを学習するものとして、
各学習文書に対し、前記学習文書にマーキングされた正解カテゴリに基づいて前記正解カテゴリと異なる誤答カテゴリを選定する段階、および
前記学習文書に対し、前記正解カテゴリと前記誤答カテゴリを共に学習して文書自動分類のための学習モデルを構築する段階
を含む、カテゴリ学習方法。 - 前記選定する段階は、
前記正解カテゴリと一部の階層が等しいカテゴリのうちから無作為サンプリングによって前記誤答カテゴリを選定すること
を特徴とする、請求項1に記載のカテゴリ学習方法。 - 前記選定する段階は、
前記正解カテゴリの最下位階層を除いた残りの階層の各深さ別に、該当の深さの階層まで等しいカテゴリのうちから前記誤答カテゴリをサンプリングする段階
を含む、請求項1に記載のカテゴリ学習方法。 - 前記選定する段階は、
前記正解カテゴリの最上位階層を除いた残りのカテゴリのうちから前記誤答カテゴリを追加でサンプリングする段階
をさらに含む、請求項3に記載のカテゴリ学習方法。 - 前記構築する段階は、
前記学習文書と、前記正解カテゴリおよび前記誤答カテゴリをそれぞれベクトル化してベクトル空間にマッピングする段階、および
前記学習文書のベクトルを基準に、前記正解カテゴリのベクトルと前記誤答カテゴリのベクトルを同時に学習する段階
を含む、請求項1に記載のカテゴリ学習方法。 - 前記学習する段階は、
前記学習文書のベクトルを基準に、前記正解カテゴリのベクトルは前記学習文書のベクトルと所定の割合だけ近くなるように、前記誤答カテゴリのベクトルは前記学習文書のベクトルと所定の割合だけ遠くなるように、学習すること
を特徴とする、請求項5に記載のカテゴリ学習方法。 - 前記カテゴリ学習方法は、
新たな文書が入力されれば、入力された文書と関連のあるカテゴリを前記学習モデルによって判断することにより、該当の文書のカテゴリを分類する段階
をさらに含む、請求項1に記載のカテゴリ学習方法。 - 前記分類する段階は、
前記新たな文書に対し、該当の文書と関連があると判断されたカテゴリを勧めるか、あるいは前記新たな文書の正解カテゴリとして自動マーキングすること
を特徴とする、請求項7に記載のカテゴリ学習方法。 - カテゴリ学習方法を実行させるコンピュータプログラムであって、
前記カテゴリ学習方法は、
前記カテゴリ学習方法とは、文書のカテゴリとして階層構造を有するカテゴリを学習するものとして、
各学習文書に対し、前記学習文書にマーキングされた正解カテゴリに基づいて前記正解カテゴリと異なる誤答カテゴリを選定する段階、および
前記学習文書に対し、前記正解カテゴリと前記誤答カテゴリを共に学習して文書自動分類のための学習モデルを構築する段階
を含む、コンピュータプログラム。 - コンピュータによって実現されるカテゴリ学習システムであって、
コンピュータが読み取り可能な命令を実行するように実現される少なくとも1つのプロセッサ
を含み、
前記少なくとも1つのプロセッサは、
文書のカテゴリとして階層構造を有するカテゴリを学習するためのものとして、
各学習文書に対し、前記学習文書にマーキングされた正解カテゴリに基づいて前記正解カテゴリと異なる誤答カテゴリを選定する学習データ選定部、および
前記学習文書に対し、前記正解カテゴリと前記誤答カテゴリを共に学習して文書自動分類のための学習モデルを構築するカテゴリ学習部
を備える、カテゴリ学習システム。 - 前記学習データ選定部は、
前記正解カテゴリと一部の階層が等しいカテゴリのうちから無作為サンプリングによって前記誤答カテゴリを選定すること
を特徴とする、請求項10に記載のカテゴリ学習システム。 - 前記学習データ選定部は、
前記正解カテゴリの最下位階層を除いた残りの階層の各深さ別に、該当の深さの階層まで等しいカテゴリのうちから前記誤答カテゴリをサンプリングすること
を特徴とする、請求項10に記載のカテゴリ学習システム。 - 前記学習データ選定部は、
前記正解カテゴリの最上位階層を除いた残りのカテゴリのうちから前記誤答カテゴリを追加でサンプリングすること
を特徴とする、請求項12に記載のカテゴリ学習システム。 - 前記カテゴリ学習部は、
前記学習文書と、前記正解カテゴリおよび前記誤答カテゴリをそれぞれベクトル化してベクトル空間にマッピングした後、前記学習文書のベクトルを基準に、前記正解カテゴリのベクトルと前記誤答カテゴリのベクトルを同時に学習すること
を特徴とする、請求項10に記載のカテゴリ学習システム。 - 前記カテゴリ学習部は、
前記学習文書のベクトルを基準に、前記正解カテゴリのベクトルは前記学習文書のベクトルと所定の割合だけ近くなるように、前記誤答カテゴリのベクトルは前記学習文書のベクトルと所定の割合だけ遠くなるように、学習すること
を特徴とする、請求項14に記載のカテゴリ学習システム。 - 前記少なくとも1つのプロセッサは、
新たな文書が入力されれば、入力された文書と関連のあるカテゴリを前記学習モデルによって判断することにより、該当の文書のカテゴリを分類するカテゴリ分類部
をさらに備える、請求項10に記載のカテゴリ学習システム。 - 前記カテゴリ分類部は、
前記新たな文書に対し、該当の文書と関連があると判断されたカテゴリを勧めるか、あるいは前記新たな文書の正解カテゴリとして自動マーキングすること
を特徴とする、請求項16に記載のカテゴリ学習システム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR10-2017-0116619 | 2017-09-12 | ||
KR1020170116619A KR102060176B1 (ko) | 2017-09-12 | 2017-09-12 | 문서의 카테고리 분류를 위한 딥러닝 학습 방법 및 그 시스템 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019053730A true JP2019053730A (ja) | 2019-04-04 |
JP6629935B2 JP6629935B2 (ja) | 2020-01-15 |
Family
ID=66014976
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018169490A Active JP6629935B2 (ja) | 2017-09-12 | 2018-09-11 | 文書のカテゴリ分類のためのディープラーニング学習方法およびそのシステム |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP6629935B2 (ja) |
KR (1) | KR102060176B1 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112732868A (zh) * | 2020-12-30 | 2021-04-30 | 科大讯飞股份有限公司 | 解答题的答案分析方法、电子设备及存储介质 |
JP2022537636A (ja) * | 2019-05-09 | 2022-08-29 | オートモビリア ツー リミテッド ライアビリティ カンパニー | メディア処理および表示のための方法、システム、およびコンピュータ・ プログラム製品 |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102215259B1 (ko) * | 2019-03-22 | 2021-02-15 | 주식회사 커넥트닷 | 주제별 단어 또는 문서의 관계성 분석 방법 및 이를 구현하는 장치 |
US11328125B2 (en) | 2019-05-14 | 2022-05-10 | Korea University Research And Business Foundation | Method and server for text classification using multi-task learning |
KR102095892B1 (ko) * | 2019-10-02 | 2020-04-01 | (주)디앤아이파비스 | 인공지능 모델을 이용한 특허문서의 유사도 판단 방법, 장치 및 시스템 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014096086A (ja) * | 2012-11-12 | 2014-05-22 | Hitachi Solutions Ltd | 文書分類システムおよび方法 |
JP2017027495A (ja) * | 2015-07-27 | 2017-02-02 | Kddi株式会社 | 検証装置、分類システム、検証方法、分類方法、及びコンピュータプログラム |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20010102687A (ko) * | 2000-05-04 | 2001-11-16 | 정만원 | 카테고리 학습 기법을 이용한 주제별 웹 문서 자동 분류방법 및 시스템 |
JP2004534324A (ja) * | 2001-07-04 | 2004-11-11 | コギズム・インターメディア・アーゲー | 索引付きの拡張可能な対話的文書検索システム |
US20140270347A1 (en) * | 2013-03-13 | 2014-09-18 | Sharp Laboratories Of America, Inc. | Hierarchical image classification system |
US10387773B2 (en) * | 2014-10-27 | 2019-08-20 | Ebay Inc. | Hierarchical deep convolutional neural network for image classification |
-
2017
- 2017-09-12 KR KR1020170116619A patent/KR102060176B1/ko active IP Right Grant
-
2018
- 2018-09-11 JP JP2018169490A patent/JP6629935B2/ja active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014096086A (ja) * | 2012-11-12 | 2014-05-22 | Hitachi Solutions Ltd | 文書分類システムおよび方法 |
JP2017027495A (ja) * | 2015-07-27 | 2017-02-02 | Kddi株式会社 | 検証装置、分類システム、検証方法、分類方法、及びコンピュータプログラム |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2022537636A (ja) * | 2019-05-09 | 2022-08-29 | オートモビリア ツー リミテッド ライアビリティ カンパニー | メディア処理および表示のための方法、システム、およびコンピュータ・ プログラム製品 |
CN112732868A (zh) * | 2020-12-30 | 2021-04-30 | 科大讯飞股份有限公司 | 解答题的答案分析方法、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
JP6629935B2 (ja) | 2020-01-15 |
KR102060176B1 (ko) | 2019-12-27 |
KR20190029264A (ko) | 2019-03-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6629935B2 (ja) | 文書のカテゴリ分類のためのディープラーニング学習方法およびそのシステム | |
US20210334624A1 (en) | Neural architecture search using a performance prediction neural network | |
US10289618B2 (en) | Third party search applications for a search system | |
US9852648B2 (en) | Extraction of knowledge points and relations from learning materials | |
KR102327913B1 (ko) | 블록 기반 데이터 분석 방법 및 시스템 | |
KR102211650B1 (ko) | 인공지능 기반 상품 추천 방법 및 그 시스템 | |
JP2019530075A (ja) | 検索コンテキストを利用したクエリ推薦方法およびシステム | |
US20110191344A1 (en) | Automatic organization of browsing histories | |
JP6769140B2 (ja) | 学習素材のセグメントのランク付け | |
JP6808851B2 (ja) | トピック構造化方法、検索結果提供方法、コンピュータプログラムおよびトピック構造化システム | |
KR20170030379A (ko) | 사용자 선호에 맞춘 여행 큐레이션 서비스 방법 및 시스템 | |
JP6696257B2 (ja) | ボキャブラリ学習サポートシステム | |
US20180189307A1 (en) | Topic based intelligent electronic file searching | |
US20180018392A1 (en) | Topic identification based on functional summarization | |
WO2013123675A1 (en) | Providing building information modeling data | |
WO2018186599A1 (ko) | 주제별 질의의 서브토픽 자동 추출 및 구조화 | |
US20180365198A1 (en) | Method and apparatus for providing web browsing interface | |
KR101747532B1 (ko) | 여행성 질의에 대응하는 검색 결과로 코스를 추천하는 방법 및 시스템 | |
Wybrow et al. | Euler diagrams drawn with ellipses area-proportionally (Edeap) | |
Surjandari et al. | Development of theses categorization system search engine using PHP and MySQL | |
US10924563B2 (en) | Method, system and recording medium for providing real-time change in search result | |
Chen et al. | Analysis of higher education and management model based on cognitive anthropology | |
KR102315068B1 (ko) | 문서 검색 품질 향상을 위한 문서 일관성 판단 방법 및 시스템 | |
US11157532B2 (en) | Hierarchical target centric pattern generation | |
EP4270239A1 (en) | Supervised machine learning method for matching unsupervised data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180911 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20190726 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190806 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20191024 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20191112 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20191205 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6629935 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |