JP2008226162A - テキスト分析装置及びテキスト分析プログラム - Google Patents
テキスト分析装置及びテキスト分析プログラム Download PDFInfo
- Publication number
- JP2008226162A JP2008226162A JP2007067267A JP2007067267A JP2008226162A JP 2008226162 A JP2008226162 A JP 2008226162A JP 2007067267 A JP2007067267 A JP 2007067267A JP 2007067267 A JP2007067267 A JP 2007067267A JP 2008226162 A JP2008226162 A JP 2008226162A
- Authority
- JP
- Japan
- Prior art keywords
- tree structure
- learning
- final hypothesis
- hypothesis information
- generated
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】テキスト分析装置が、最終仮説情報を記憶する最終仮説情報記憶部と、学習データを構文解析した結果に基づき木構造を生成する第1木構造生成部と、生成された木構造から複数の部分木を抽出して弱学習器を生成する弱学習器生成部と、生成された複数の弱学習器を基にギブスブースト学習アルゴリズムによる学習処理を行なって最終仮説情報を作成する学習処理部と、判定対象のテキストデータからテキストデータに含まれる文章区間に対応する木構造を生成する第2木構造生成部と、この木構造と前記最終仮説情報とに基づき、文章区間が検索対象に該当するか否かを判定する判定処理部を備える。
【選択図】図1
Description
これにより、第1木構造生成部は、学習データに基づく構文木を生成する。そして、弱学習器生成部は上記構文木の部分木に対応する弱学習器を生成する。そして、学習処理部は、学習データに含まれる情報、即ち学習データに含まれる文章区間が検索対象の文章区間であるか否かの情報を利用して、学習処理を行なう。学習処理の結果、学習データに対応した最終仮説情報が得られる。判定処理部は、この最終仮説情報を用いて、判定対象のテキストデータに含まれる文章区間が前記検索対象に該当するか否かを判定できる。
本発明の一態様においては、学習データは正例と負例とを含む。この場合、「前記学習データを用いて」とは、文章区間が正例に含まれるか負例に含まれるかの情報(正解情報)を用いる。
判定処理部が「文章区間が前記検索対象に該当するか否かを判定できる」とは、例えば、その文章区間が特定の定型的な表現であるか否か、あるいは、その文章区間がある文章ないしは文章の集合に類似であるか否かなどといった判定を行なえることである。
これにより、構文木の根ノードに近いノードを有する部分木に対応する弱学習器が選択される確率を高めるようにすることができる。
これにより、構文木における相互の距離が近いノードを有する構文木に対応する弱学習器が選択される確率を高めるようにすることができる。
これにより、判定処理部は、最終仮説情報記憶部に記憶されている最終仮説情報を読み出して、判定対象のテキストデータに含まれる文章区間が前記検索対象に該当するか否かを判定できる。
また、本発明によれば、選択された弱学習器の系列を一つでなく複数作成するため、頑健な判定器を作成できる。
図1は、本実施形態のテキスト分析装置の機能構成を示すブロック図である。図示するテキスト分析装置1は、内部に、構文解析部9と、木構造生成部11(第1木構造生成部)と、弱学習器生成部12と、学習処理部13と、最終仮説情報記憶部15と、構文解析部29と、木構造生成部31(第2木構造生成部)と、判定処理部33とを備えている。また、これら各部から学習データ(正例および負例)14やテキストデータ35にアクセス可能となっている。このテキスト分析装置1では、学習データ14に基づいて構文解析部9が構文解析処理を行なった結果によって木構造生成部11が構文木を生成し、弱学習器生成部12はその部分木によって弱学習器を生成し、この生成した弱学習器を用いて学習処理部13が機械学習を行ない、学習処理部13の結果得られる最終仮説情報を最終仮説情報記憶部15に書き込む。また、判定対象のテキストデータ35に基づいて構文解析部29が構文解析処理を行なった結果によって木構造生成部31が構文木を生成し、判定処理部33は最終仮説情報記憶部15から読み出した最終仮説情報と木構造生成部31が生成した構文木により、テキストデータ35中の文章区間が特定の定型的表現を含んでいるか否かを判定する。そして、判定処理部33は、その判定結果を出力する。あるいは判定処理部33は、特定の定型的表現を含む文章区間のみを類似文章として抽出し、出力する。つまり、判定処理部33は、構造生成部31が生成した木構造と最終仮説情報記憶部15から読み出した前記最終仮説情報とに基づき、文章区間が検索対象に該当するか否かを判定する。
構文解析部9は、学習データ14を読み出し、字句解析、形態素解析、構文解析の各処理を行なうことにより学習データ内の文章を一文ごとに構文解析する。入力文を一文ごとに構文解析した結果、複数文の構文木が生成される。木構造生成部11は、上記の構文解析の結果に基づき、複数文を一つにまとめた構文木を生成する。これは、各文の構文木の根(ルート)ノードの親ノードに相当する最上位ノードを生成し、一つの文章区間に含まれる複数文のテキストから単一の木構造を生成する。弱学習器生成部12は、木構造生成部11によって生成された構文木から、指定数以下のノードを含む部分木を抽出し、部分木から入力データに対して2値に判別する複数の弱学習器を生成する。
入力される学習データは、正例と負例とをほぼ同量含んでいる。正例は、特定の定型的表現を含む検索対象文章の集合である。負例は、前記の特定の定型的表現を含まない、検索非対象文章の集合である。つまり、学習データに含まれる文章が正例であるか負例であるかは既知情報として与えられる。即ち、学習データは、その文章区間が検索対象の文章区間であるか否かの情報を含む。
まず、ステップS2−1において、構文解析部9が、入力された日本語によるテキストを構文解析し木構造に変換する。これにより、それぞれの文に対応する構文木が生成される。この構文木の各ノードは、その文に含まれる文節に対応する。
次に、ステップS2−2(第1木構造生成過程)において、木構造生成部11は、各文の構文木の根ノードに対する親ノードとして最上位ノードを生成し、この最上位ノードから各文の構文木の根ノードへは順序付きのアークで結んだ木構造を生成する。この木構造については、後で図3を参照しながら説明する。
構文木では、各文の木の根ノードに主節の述部があり、その下のノードには、主節の述部に直接係る連体節または主節の格要素が位置する。これらは文を比較する上で重要な要素である。そこで、弱学習器のサンプリングに用いる事前確率は、根ノードに近いノードほど選択される確率が高くなり、さらに、選択されたノード間の距離が近いほど選択される確率が高くなるようにする。部分木θの事前分布は、次の式(2)により計算される。
学習データの正例の構文木から生成された大量の弱学習器に対して、式(2)の確率値を利用して一定数M個(例えば、500個)をサンプリングする。このサンプリングにより選ばれる確率は式(2)で計算される確率値に比例する。つまり、式(2)の確率値が2倍になると選ばれる確率は2倍となり、式(2)の確率値が半分になると選ばれる確率は半分となる。
上のπ(Θt)は、パラメータΘtに対する事前確率分布であり、下の式(5)により定義される。
式(3)におけるQ(Θt)=Q(θt)Q(αt)で、Q(θt)=πθ(θt)とし、選ばれた弱学習器の信頼度を決定する提案分布提案分布Q(αt)は学習データに対するエラーレートから算出する。
以上の処理により、各々がT個の弱学習器で構成されるI個の系列が生成されたが、これらI個の系列を用いて2値判別する最終仮説は、下の式(6)により示される。
学習処理部13は、この最終仮説の情報を最終仮説情報記憶部15に書き込む。ここで最終仮説情報記憶部15に記憶される最終仮説情報とは、具体的には、学習済みのI個の系列それぞれに属する各弱学習器についての、対応する部分木の情報と、閾値θtの値と、信頼度αt' (j)の値である。
以上まとめると、学習処理部13は、学習データを用いて、生成された複数の弱学習器を基にギブスブースト学習アルゴリズムによる学習処理を行なって最終仮説情報を作成する。具体的には、学習処理部33は、事前確率値を計算しこの事前確率値に応じて弱学習器生成部12によって生成された複数の弱学習器からサンプリングし、このサンプリングの結果に応じて学習データ14に基づき弱学習器の重要度ウェイトの値を算出し、算出された前記重要度ウェイトの値に応じて弱学習器の系列を繋ぐ処理を複数回繰り返すことにより、複数個の弱学習器からなる系列を複数個生成し、この複数個の系列に対応して前記最終仮説情報を作成する。
つまり、本実施形態と比較対象の形態とでは、本実施形態のほうが同程度ないしはやや良い正解率が得られ、学習処理に要する時間は本実施形態のほうが格段に短い(比較対象形態の約1.4%)。つまり、本実施形態によるテキスト分析装置の学習処理効率の圧倒的な良さが実証された。
11 木構造生成部(第1木構造生成部)
12 弱学習器生成部
13 学習処理部
14 学習データ
15 最終仮説情報記憶部
31 木構造生成部(第2木構造生成部)
33 判定処理部
35 テキストデータ
Claims (7)
- 学習の結果得られる最終仮説情報を記憶する最終仮説情報記憶部と、
検索対象であるか否かの情報を含む学習データを構文解析した結果に基づき木構造を生成する第1木構造生成部と、
生成された前記木構造から複数の部分木を抽出して各部分木に対応する弱学習器を生成する弱学習器生成部と、
前記学習データを用いて、生成された複数の前記弱学習器を基にギブスブースト学習アルゴリズムによる学習処理を行なって最終仮説情報を作成し、この最終仮説情報を前記最終仮説情報記憶部に書き込む学習処理部と、
判定対象のテキストデータを構文解析した結果に基づき前記テキストデータに含まれる文章区間に対応する木構造を生成する第2木構造生成部と、
前記第2木構造生成部が生成した木構造と前記最終仮説情報記憶部から読み出した前記最終仮説情報とに基づき、前記文章区間が前記検索対象に該当するか否かを判定する判定処理部と、
を備えることを特徴とするテキスト分析装置。 - 前記学習処理部は、事前確率値を計算しこの事前確率値に応じて前記弱学習器生成部によって生成された複数の前記弱学習器からサンプリングし、このサンプリングの結果に応じて前記学習データに基づき弱学習器の重要度ウェイトの値を算出し、算出された前記重要度ウェイトの値に応じて弱学習器の系列を繋ぐ処理を複数回繰り返すことにより、複数個の弱学習器からなる系列を複数個生成し、この複数個の系列に対応して前記最終仮説情報を作成することを特徴とする請求項1に記載のテキスト分析装置。
- 前記学習処理部は、前記弱学習器に対応する部分木に属するノードの前記構文木の根ノードからの深さに基づいて前記事前確率値を計算することを特徴とする請求項2に記載のテキスト分析装置。
- 前記学習処理部は、前記弱学習器に対応する部分木に属する複数のノード間の前記構文木における距離に基づいて前記事前確率値を計算することを特徴とする請求項2または請求項3に記載のテキスト分析装置。
- 検索対象の文章区間であるか否かの情報を含む学習データを用いて生成された複数の弱学習器を基にギブスブースト学習アルゴリズムによる学習処理を行なって得られた最終仮説情報を記憶している最終仮説情報記憶部と、
判定対象のテキストデータを構文解析した結果に基づき前記テキストデータに含まれる文章区間に対応する木構造を生成する木構造生成部と、
前記木構造生成部が生成した木構造と前記最終仮説情報記憶部から読み出した前記最終仮説情報とに基づき、前記文章区間が前記検索対象に該当するか否かを判定する判定処理部と、
を備えることを特徴とするテキスト分析装置。 - 学習の結果得られる最終仮説情報を記憶する最終仮説情報記憶部を備えるコンピュータに、
検索対象の文章区間であるか否かの情報を含む学習データを構文解析した結果に基づき木構造を生成する第1木構造生成過程と、
生成された前記木構造から複数の部分木を抽出して各部分木に対応する弱学習器を生成する弱学習器生成過程と、
前記学習データを用いて、生成された複数の前記弱学習器を基にギブスブースト学習アルゴリズムによる学習処理を行なって最終仮説情報を作成し、この最終仮説情報を前記最終仮説情報記憶部に書き込む学習処理過程と、
判定対象のテキストデータを構文解析した結果に基づき前記テキストデータに含まれる文章区間に対応する木構造を生成する第2木構造生成過程と、
前記第2木構造生成部が生成した木構造と前記最終仮説情報記憶部から読み出した前記最終仮説情報とに基づき、前記文章区間が前記検索対象に該当するか否かを判定する判定処理過程と、
の各過程の処理を実行させるテキスト分析プログラム。 - 検索対象の文章区間であるか否かの情報を含む学習データを用いて生成された複数の弱学習器を基にギブスブースト学習アルゴリズムによる学習処理を行なって得られた最終仮説情報を記憶している最終仮説情報記憶部を備えるコンピュータに、
判定対象のテキストデータを構文解析した結果に基づき前記テキストデータに含まれる文章区間に対応する木構造を生成する木構造生成過程と、
前記木構造生成部が生成した木構造と前記最終仮説情報記憶部から読み出した前記最終仮説情報とに基づき、前記文章区間が前記検索対象に該当するか否かを判定する判定処理過程と、
の各過程の処理を実行させるテキスト分析プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007067267A JP5100162B2 (ja) | 2007-03-15 | 2007-03-15 | テキスト分析装置及びテキスト分析プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007067267A JP5100162B2 (ja) | 2007-03-15 | 2007-03-15 | テキスト分析装置及びテキスト分析プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008226162A true JP2008226162A (ja) | 2008-09-25 |
JP5100162B2 JP5100162B2 (ja) | 2012-12-19 |
Family
ID=39844650
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007067267A Active JP5100162B2 (ja) | 2007-03-15 | 2007-03-15 | テキスト分析装置及びテキスト分析プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5100162B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101819596A (zh) * | 2010-04-28 | 2010-09-01 | 烽火通信科技股份有限公司 | 一种基于内存的xml脚本缓存容器 |
-
2007
- 2007-03-15 JP JP2007067267A patent/JP5100162B2/ja active Active
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101819596A (zh) * | 2010-04-28 | 2010-09-01 | 烽火通信科技股份有限公司 | 一种基于内存的xml脚本缓存容器 |
Also Published As
Publication number | Publication date |
---|---|
JP5100162B2 (ja) | 2012-12-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102455616B1 (ko) | 멀티 모달리티를 기반으로 하는 주제 분류 방법, 장치, 기기 및 저장 매체 | |
Blodgett et al. | Demographic dialectal variation in social media: A case study of African-American English | |
US10769552B2 (en) | Justifying passage machine learning for question and answer systems | |
US7467079B2 (en) | Cross lingual text classification apparatus and method | |
US9621601B2 (en) | User collaboration for answer generation in question and answer system | |
Ferrández et al. | Addressing ontology-based question answering with collections of user queries | |
US20060277028A1 (en) | Training a statistical parser on noisy data by filtering | |
Spreafico et al. | Neural data-driven captioning of time-series line charts | |
Atef et al. | AQAD: 17,000+ arabic questions for machine comprehension of text | |
CN113204670A (zh) | 一种基于注意力模型的视频摘要描述生成方法及装置 | |
Gonzales | Sociolinguistic analysis with missing metadata? Leveraging linguistic and semiotic resources through deep learning to investigate English variation and change on Twitter | |
JP5100162B2 (ja) | テキスト分析装置及びテキスト分析プログラム | |
KR100559472B1 (ko) | 영한 자동번역에서 의미 벡터와 한국어 국소 문맥 정보를사용한 대역어 선택시스템 및 방법 | |
KR20230080849A (ko) | 실시간 온라인 전문 강의용 주제 친화적 자막 생성 방법 및 시스템 | |
CN111949781B (zh) | 一种基于自然语句句法分析的智能交互方法及装置 | |
KR20140056715A (ko) | 계층적 카테고리를 기초로 하는 감성 분석을 위한 장치 및 이를 위한 방법 | |
JP7135730B2 (ja) | 要約生成方法及び要約生成プログラム | |
CN114722267A (zh) | 信息推送方法、装置及服务器 | |
JP6621437B2 (ja) | 違法コンテンツ探索装置、違法コンテンツ探索方法、及びプログラム | |
Öhman et al. | EmotionArcs: Emotion Arcs for 9,000 Literary Texts | |
JP2008287638A (ja) | テキスト分析装置およびテキスト分析プログラム | |
CN118170919B (zh) | 一种文学作品的分类方法及系统 | |
Wang et al. | Video description with integrated visual and textual information | |
CN118350368B (zh) | 一种基于nlp技术的大语言模型的多文档摘编方法 | |
Wojciechowska et al. | Deep Dive into the Language of International Relations: NLP-based Analysis of UNESCO's Summary Records |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090319 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120217 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120228 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120328 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120828 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120925 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20151005 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5100162 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |