JP6602243B2 - 学習装置、方法、及びプログラム - Google Patents
学習装置、方法、及びプログラム Download PDFInfo
- Publication number
- JP6602243B2 JP6602243B2 JP2016053038A JP2016053038A JP6602243B2 JP 6602243 B2 JP6602243 B2 JP 6602243B2 JP 2016053038 A JP2016053038 A JP 2016053038A JP 2016053038 A JP2016053038 A JP 2016053038A JP 6602243 B2 JP6602243 B2 JP 6602243B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- rule
- case
- unit
- label
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
- G06N5/025—Extracting rules from data
Description
図1に例示されるように、第1の実施形態に係る学習装置は、コーパス格納部110と、事例データ格納部120と、事例候補抽出部130と、手動ルール作成部140(第1のルール作成部)と、単語特徴量算出部150(特徴量算出部)と、関連語自動抽出部160(関連語抽出部)と、自動ルール作成部170(第2のルール作成部)と、ラベル付与部180と、学習部190とを含む。
第1の実施形態に係る学習装置は、手がかり語とテキストに含まれる単語との間の類似度に基づいて関連語が抽出される。他方、第2の実施形態に係る学習装置は、手がかり語および事例候補の関係と、テキストに含まれる単語および事例内容の関係との間の類似度に基づいて関連語が抽出されてもよい。
Claims (9)
- テキストから抽出ルールに従って単語を事例候補として抽出する事例候補抽出部と、
前記事例候補の手がかり語を含む、前記事例候補にラベルを付与するための第1のルールであって、ユーザによって作成される前記第1のルールを入力するルール入力部と、
前記テキストに含まれる前記事例候補以外の他の単語の特徴量を算出する特徴量算出部と、
前記特徴量を用いて、前記他の単語から前記手がかり語との関連がある関連語を抽出する関連語抽出部と、
前記第1のルールと異なるルールであって、前記関連語を含む、前記事例候補にラベルを付与するための第2のルールを作成する第2のルール作成部と、
前記第1のルールおよび前記第2のルールを用いて、前記事例候補にラベルを付与するラベル付与部と、
前記手がかり語、前記関連語および前記ラベルが付与された事例候補を対応付けた学習データを作成する学習部と
を具備し、
前記第2のルール作成部は、前記第1のルールにおける前記手がかり語を前記関連語に置き換えることによって、前記第2のルールを作成する、学習装置。 - 前記特徴量算出部は、前記テキストに含まれる単語の前後の文脈を用いて、前記特徴量を連続値のベクトルとして表す、請求項1に記載の学習装置。
- 前記関連語抽出部は、前記手がかり語と前記他の単語との間の類似度が高い単語を前記関連語として抽出する、請求項1または請求項2に記載の学習装置。
- 前記関連語抽出部は、前記手がかり語および前記事例候補の関係と、前記他の単語および前記抽出ルールに用いられる所望の単語の関係との間の類似度が高い前記他の単語を関連語としてさらに抽出する、請求項1乃至請求項3のいずれか1項に記載の学習装置。
- 前記第2のルール作成部は、前記第1のルールと前記関連語と前記所望の単語とを用いて、前記事例候補としての前記所望の単語に一致する単語にラベルを付与するための第2のルールをさらに作成する、請求項4に記載の学習装置。
- 前記所望の単語を格納する事例データ格納部
を更に具備する、請求項4または請求項5に記載の学習装置。 - 前記テキストを格納するコーパス格納部
を更に具備する、請求項1乃至請求項6のいずれか1項に記載の学習装置。 - 事例候補抽出部が、テキストから抽出ルールに従って単語を事例候補として抽出することと、
入力部が、前記事例候補の手がかり語を含む、前記事例候補にラベルを付与するための第1のルールであって、ユーザによって作成される前記第1のルールを入力することと、
算出部が、前記テキストに含まれる前記事例候補以外の他の単語の特徴量を算出することと、
関連語抽出部が、特徴量を用いて、前記他の単語から前記手がかり語との関連がある関連語を抽出することと、
作成部が、前記第1のルールと異なるルールであって、前記関連語を含む、前記事例候補にラベルを付与するための第2のルールを作成することと、
付与部が、前記第1のルールおよび前記第2のルールを用いて、前記事例候補にラベルを付与することと、
学習部が、前記手がかり語、前記関連語および前記ラベルが付与された事例候補を対応付けた学習データを作成することと
を具備し、
前記作成部は、前記第1のルールにおける前記手がかり語を前記関連語に置き換えることによって、前記第2のルールを作成する、学習方法。 - コンピュータを、
テキストから抽出ルールに従って単語を事例候補として抽出する手段と、
前記事例候補の手がかり語を含む、前記事例候補にラベルを付与するための第1のルールであって、ユーザによって作成される前記第1のルールを入力する手段と、
前記テキストに含まれる前記事例候補以外の他の単語の特徴量を算出する手段と、
前記特徴量を用いて、前記他の単語から前記手がかり語との関連がある関連語を抽出する手段と、
前記第1のルールと異なるルールであって、前記関連語を含む、前記事例候補にラベルを付与するための第2のルールを作成する手段と、
前記第1のルールおよび前記第2のルールを用いて、前記事例候補にラベルを付与する手段と、
前記手がかり語、前記関連語および前記ラベルが付与された事例候補を対応付けた学習データを作成する手段
として機能させ、
前記第2のルールを作成する手段は、前記第1のルールにおける前記手がかり語を前記関連語に置き換えることによって、前記第2のルールを作成する、学習プログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016053038A JP6602243B2 (ja) | 2016-03-16 | 2016-03-16 | 学習装置、方法、及びプログラム |
US15/420,834 US11037062B2 (en) | 2016-03-16 | 2017-01-31 | Learning apparatus, learning method, and learning program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016053038A JP6602243B2 (ja) | 2016-03-16 | 2016-03-16 | 学習装置、方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017167854A JP2017167854A (ja) | 2017-09-21 |
JP6602243B2 true JP6602243B2 (ja) | 2019-11-06 |
Family
ID=59847022
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016053038A Active JP6602243B2 (ja) | 2016-03-16 | 2016-03-16 | 学習装置、方法、及びプログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US11037062B2 (ja) |
JP (1) | JP6602243B2 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6937376B2 (ja) | 2017-08-31 | 2021-09-22 | 富士フイルム株式会社 | 印刷用原版、及び印刷用原版積層体 |
JP7034977B2 (ja) * | 2019-03-18 | 2022-03-14 | 株式会社東芝 | 情報抽出支援装置、情報抽出支援方法及びプログラム |
WO2022064579A1 (ja) * | 2020-09-23 | 2022-03-31 | 日本電信電話株式会社 | 分類装置、分類方法及び分類プログラム |
JP2022122029A (ja) * | 2021-02-09 | 2022-08-22 | 株式会社東芝 | データ処理装置、データ処理方法及びデータ処理プログラム |
Family Cites Families (62)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4912063A (en) | 1987-10-26 | 1990-03-27 | North Carolina State University | Growth of beta-sic thin films and semiconductor devices fabricated thereon |
JP3384016B2 (ja) | 1993-02-19 | 2003-03-10 | 富士ゼロックス株式会社 | 文書編集管理装置 |
JP3020803B2 (ja) | 1994-06-08 | 2000-03-15 | 株式会社日立製作所 | 法令文書検索改正システム |
JP4278011B2 (ja) | 1996-04-05 | 2009-06-10 | 富士通株式会社 | 文書校正装置およびプログラム記憶媒体 |
JP3936453B2 (ja) | 1997-12-04 | 2007-06-27 | 富士通株式会社 | 文書校正装置 |
JP2001134600A (ja) | 1999-11-08 | 2001-05-18 | Nec Corp | 情報抽出システム、情報抽出方法および情報抽出用プログラムを記録した記録媒体 |
JP2002024211A (ja) | 2000-06-30 | 2002-01-25 | Hitachi Ltd | 文書管理方法およびシステム並びにその処理プログラムを格納した記憶媒体 |
JP2002056354A (ja) | 2000-08-14 | 2002-02-20 | Toshiba Corp | 光学的文字読取装置および同装置のデータ修正方法 |
JP3832281B2 (ja) * | 2001-06-27 | 2006-10-11 | 日本電気株式会社 | 外れ値ルール生成装置と外れ値検出装置、その外れ値ルール生成方法と外れ値検出方法及びそのプログラム |
JP4861573B2 (ja) | 2001-08-02 | 2012-01-25 | 株式会社 ワールドフュージョン | 研究遺伝子産物の重要性を予測するシステム |
JP2003167870A (ja) | 2001-11-29 | 2003-06-13 | Fujitsu Ltd | 文書処理装置、およびプログラム |
US8316001B1 (en) | 2002-07-22 | 2012-11-20 | Ipvision, Inc. | Apparatus and method for performing analyses on data derived from a web-based search engine |
JP4737914B2 (ja) | 2002-10-02 | 2011-08-03 | ケープレックス・インク | 文書改訂支援プログラム及び当該支援プログラムを記録したコンピュータ読み取り可能媒体、並びに文書改訂支援装置。 |
JP4186774B2 (ja) | 2003-09-25 | 2008-11-26 | 沖電気工業株式会社 | 情報抽出装置,情報抽出方法,およびプログラム |
US20050144177A1 (en) | 2003-11-26 | 2005-06-30 | Hodes Alan S. | Patent analysis and formulation using ontologies |
JP2005190338A (ja) | 2003-12-26 | 2005-07-14 | Toshiba Corp | 情報抽出装置および情報抽出方法 |
JP4534666B2 (ja) | 2004-08-24 | 2010-09-01 | 富士ゼロックス株式会社 | テキスト文検索装置及びテキスト文検索プログラム |
JP4713870B2 (ja) * | 2004-10-13 | 2011-06-29 | ヒューレット−パッカード デベロップメント カンパニー エル.ピー. | 文書分類装置、方法、プログラム |
JP4600045B2 (ja) * | 2005-01-07 | 2010-12-15 | 日本電気株式会社 | 意見抽出用学習装置及び意見抽出用分類装置 |
AU2005201758B2 (en) | 2005-04-27 | 2008-12-18 | Canon Kabushiki Kaisha | Method of learning associations between documents and data sets |
JP4645288B2 (ja) * | 2005-04-28 | 2011-03-09 | 日本電気株式会社 | 能動学習方法および能動学習システム |
KR20080021017A (ko) | 2005-05-13 | 2008-03-06 | 커틴 유니버시티 오브 테크놀로지 | 텍스트 기반의 문서 비교 |
WO2006126409A1 (ja) | 2005-05-26 | 2006-11-30 | Sharp Kabushiki Kaisha | 特許情報分析装置、特許情報分析方法、特許情報分析プログラム、およびコンピュータ読み取り可能な記録媒体 |
JP4565106B2 (ja) | 2005-06-23 | 2010-10-20 | 独立行政法人情報通信研究機構 | 二項関係抽出装置,二項関係抽出処理を用いた情報検索装置,二項関係抽出処理方法,二項関係抽出処理を用いた情報検索処理方法,二項関係抽出処理プログラム,および二項関係抽出処理を用いた情報検索処理プログラム |
US7809551B2 (en) * | 2005-07-01 | 2010-10-05 | Xerox Corporation | Concept matching system |
US20070073653A1 (en) | 2005-09-29 | 2007-03-29 | Caterpillar Inc. | Patent related search method and system |
WO2008120030A1 (en) * | 2007-04-02 | 2008-10-09 | Sobha Renaissance Information | Latent metonymical analysis and indexing [lmai] |
JP2009075733A (ja) | 2007-09-19 | 2009-04-09 | Toshiba Corp | 候補表示装置及び方法 |
US9384175B2 (en) | 2008-02-19 | 2016-07-05 | Adobe Systems Incorporated | Determination of differences between electronic documents |
US8645391B1 (en) | 2008-07-03 | 2014-02-04 | Google Inc. | Attribute-value extraction from structured documents |
JP5238418B2 (ja) | 2008-09-09 | 2013-07-17 | 株式会社東芝 | 情報推薦装置および情報推薦方法 |
WO2010030794A1 (en) | 2008-09-10 | 2010-03-18 | Digital Infuzion, Inc. | Machine learning methods and systems for identifying patterns in data |
US8346534B2 (en) * | 2008-11-06 | 2013-01-01 | University of North Texas System | Method, system and apparatus for automatic keyword extraction |
JP5359389B2 (ja) | 2009-03-06 | 2013-12-04 | 大日本印刷株式会社 | データ分析支援装置、データ分析支援システム、及びプログラム |
JP4897846B2 (ja) | 2009-03-17 | 2012-03-14 | ヤフー株式会社 | 関連情報提供装置、そのシステム、そのプログラム、および、その方法 |
US9195646B2 (en) | 2009-04-15 | 2015-11-24 | Nec Corporation | Training data generation apparatus, characteristic expression extraction system, training data generation method, and computer-readable storage medium |
US9235563B2 (en) * | 2009-07-02 | 2016-01-12 | Battelle Memorial Institute | Systems and processes for identifying features and determining feature associations in groups of documents |
US8321357B2 (en) * | 2009-09-30 | 2012-11-27 | Lapir Gennady | Method and system for extraction |
JP2011108085A (ja) | 2009-11-19 | 2011-06-02 | Nippon Hoso Kyokai <Nhk> | 知識構築装置およびプログラム |
JP5356197B2 (ja) | 2009-12-01 | 2013-12-04 | 株式会社日立製作所 | 単語意味関係抽出装置 |
JP2011232871A (ja) * | 2010-04-26 | 2011-11-17 | Sony Corp | 情報処理装置、テキスト選択方法及びプログラム |
US8566360B2 (en) | 2010-05-28 | 2013-10-22 | Drexel University | System and method for automatically generating systematic reviews of a scientific field |
JP5640773B2 (ja) | 2011-01-28 | 2014-12-17 | 富士通株式会社 | 情報照合装置、情報照合方法および情報照合プログラム |
CN102820253B (zh) | 2011-06-08 | 2014-04-16 | 中国科学院上海微系统与信息技术研究所 | 一种基于soi衬底的高迁移率双沟道材料的制备方法 |
US9176949B2 (en) | 2011-07-06 | 2015-11-03 | Altamira Technologies Corporation | Systems and methods for sentence comparison and sentence-based search |
US9098600B2 (en) | 2011-09-14 | 2015-08-04 | International Business Machines Corporation | Deriving dynamic consumer defined product attributes from input queries |
KR101127883B1 (ko) | 2011-09-26 | 2012-03-21 | 한국과학기술정보연구원 | 기술 생명 주기 그래프를 이용한 기술 추이 제공 방법 및 시스템 |
US10242066B2 (en) | 2011-10-03 | 2019-03-26 | Black Hills Ip Holdings, Llc | Systems, methods and user interfaces in a patent management system |
JP2013105321A (ja) | 2011-11-14 | 2013-05-30 | Hitachi Ltd | 文書処理装置、文書構成要素間の関係解析方法およびプログラム |
JP2013143039A (ja) | 2012-01-11 | 2013-07-22 | Canon Inc | 頻出パターン抽出装置、頻出パターン抽出方法、及びプログラム |
JP5870790B2 (ja) | 2012-03-19 | 2016-03-01 | 富士通株式会社 | 文章校正装置、及び文章校正方法 |
US9858609B2 (en) | 2012-06-27 | 2018-01-02 | Rakuten, Inc. | Information processing apparatus, information processing method, and information processing program |
JP6025520B2 (ja) | 2012-11-26 | 2016-11-16 | 株式会社日立製作所 | データ分析支援処理システム及び方法 |
JP6061337B2 (ja) | 2013-01-17 | 2017-01-18 | Kddi株式会社 | 規則生成装置及び抽出装置 |
GB2529774A (en) | 2013-04-15 | 2016-03-02 | Contextual Systems Pty Ltd | Methods and systems for improved document comparison |
KR101485940B1 (ko) * | 2013-08-23 | 2015-01-27 | 네이버 주식회사 | 시멘틱 뎁스 구조 기반의 검색어 제시 시스템 및 방법 |
JP6505421B2 (ja) | 2014-11-19 | 2019-04-24 | 株式会社東芝 | 情報抽出支援装置、方法およびプログラム |
US20170075877A1 (en) | 2015-09-16 | 2017-03-16 | Marie-Therese LEPELTIER | Methods and systems of handling patent claims |
EP3151131A1 (en) | 2015-09-30 | 2017-04-05 | Hitachi, Ltd. | Apparatus and method for executing an automated analysis of data, in particular social media data, for product failure detection |
JP6775935B2 (ja) | 2015-11-04 | 2020-10-28 | 株式会社東芝 | 文書処理装置、方法、およびプログラム |
JP6490607B2 (ja) | 2016-02-09 | 2019-03-27 | 株式会社東芝 | 材料推薦装置 |
JP6622172B2 (ja) | 2016-11-17 | 2019-12-18 | 株式会社東芝 | 情報抽出支援装置、情報抽出支援方法およびプログラム |
-
2016
- 2016-03-16 JP JP2016053038A patent/JP6602243B2/ja active Active
-
2017
- 2017-01-31 US US15/420,834 patent/US11037062B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
US20170270412A1 (en) | 2017-09-21 |
US11037062B2 (en) | 2021-06-15 |
JP2017167854A (ja) | 2017-09-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102542914B1 (ko) | 다중언어 번역 장치 및 다중언어 번역 방법 | |
JP5751251B2 (ja) | 意味抽出装置、意味抽出方法、および、プログラム | |
Markov et al. | Author profiling with doc2vec neural network-based document embeddings | |
JP7289047B2 (ja) | ブロックに基づく文書メタデータの抽出のための方法、コンピュータ・プログラム及びシステム | |
JP6602243B2 (ja) | 学習装置、方法、及びプログラム | |
US9202142B1 (en) | Automatic assessment of books to determine suitability for audio book conversion | |
CN110222200A (zh) | 用于实体融合的方法和设备 | |
Lauscher et al. | ArguminSci: A tool for analyzing argumentation and rhetorical aspects in scientific writing | |
Behdenna et al. | Sentiment analysis at document level | |
Jia et al. | Gender prediction based on Chinese name | |
Mac Kim et al. | Detecting social roles in twitter | |
Dahlberg et al. | A distributional semantic online lexicon for linguistic explorations of societies | |
US8135573B2 (en) | Apparatus, method, and computer program product for creating data for learning word translation | |
JP6495124B2 (ja) | 用語意味コード判定装置、用語意味コード判定モデル学習装置、方法、及びプログラム | |
JP6689466B1 (ja) | 文構造ベクトル化装置、文構造ベクトル化方法、及び文構造ベクトル化プログラム | |
Nisioi | Unsupervised classification of translated texts | |
US20120117068A1 (en) | Text mining device | |
JP6144458B2 (ja) | 手話翻訳装置及び手話翻訳プログラム | |
CN111279331A (zh) | 因果句解析装置、因果句解析系统、程序以及因果句解析方法 | |
JP5405507B2 (ja) | 具体主題の有無判定装置、方法、及びプログラム | |
JP6897168B2 (ja) | 情報処理装置及び情報処理プログラム | |
WO2014188555A1 (ja) | テキスト処理装置、及び、テキスト処理方法 | |
Özkan et al. | An image-based recommender system based on image annotation | |
Kristianto et al. | Entity linking for mathematical expressions in scientific documents | |
JP7034977B2 (ja) | 情報抽出支援装置、情報抽出支援方法及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180226 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20190131 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190226 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190419 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190910 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20191008 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 6602243 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |