JP4333318B2 - 話題構造抽出装置及び話題構造抽出プログラム及び話題構造抽出プログラムを記録したコンピュータ読み取り可能な記憶媒体 - Google Patents
話題構造抽出装置及び話題構造抽出プログラム及び話題構造抽出プログラムを記録したコンピュータ読み取り可能な記憶媒体 Download PDFInfo
- Publication number
- JP4333318B2 JP4333318B2 JP2003357372A JP2003357372A JP4333318B2 JP 4333318 B2 JP4333318 B2 JP 4333318B2 JP 2003357372 A JP2003357372 A JP 2003357372A JP 2003357372 A JP2003357372 A JP 2003357372A JP 4333318 B2 JP4333318 B2 JP 4333318B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- cluster
- segment
- topic
- clustering
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000000605 extraction Methods 0.000 title claims description 15
- 239000013598 vector Substances 0.000 claims description 94
- 230000011218 segmentation Effects 0.000 claims description 78
- 230000000877 morphologic effect Effects 0.000 claims description 9
- 230000005484 gravity Effects 0.000 claims description 8
- 238000000034 method Methods 0.000 description 107
- 238000012545 processing Methods 0.000 description 11
- 239000011159 matrix material Substances 0.000 description 6
- 230000001174 ascending effect Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000009466 transformation Effects 0.000 description 3
- 238000000354 decomposition reaction Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
テキストを単語単位に分割する形態素解析過程と(ステップ1)、
単語の意味を表現するベクトルが格納されている記憶手段である概念ベースを検索することによって、形態素解析過程で得られた各単語に対応するベクトルを取得する単語ベクトル取得過程と(ステップ2)、
単語ベクトル取得過程で得られた単語ベクトルの系列から、テキストを同一話題の区間であるセグメントの集合へ分割するトピックセグメンテーション過程と(ステップ3)、
トピックセグメンテーション過程で得られた各セグメントに対して、セグメントに含まれる単語ベクトルを利用して、距離が近いセグメントを同一クラスタとする基準により、階層的にクラスタリングし、各クラスタをノードとするツリーを生成するセグメントクラスタリング過程(ステップ4)と、
要約対象のクラスタCに含まれる各単語について、該クラスタC内の単語ベクトルとの距離の自乗の和であるTwと、該クラスタCと階層的に兄弟関係にあるクラスタ群に含まれる全ての単語ベクトルとの距離の自乗の和であるUwを求め、UwをTwで除したスコアが大きい単語から順にある個数だけ単語を出力する要約過程と(ステップ5)、
セグメントクラスタリング過程で得られたツリーの上で、要約過程で得られた各クラスタの単語を、該クラスタのノードのラベルとして出力する話題構造出力過程(ステップ6)と、を行う。
テキストを単語単位に分割する形態素解析過程と、
単語の意味を表現するベクトルが格納されている記憶手段である概念ベースを検索することによって、形態素解析過程で得られた各単語に対応するベクトルを取得する単語ベクトル取得過程と、
単語ベクトル取得過程で得られた単語ベクトルの系列から、テキストを同一話題の区間であるセグメントの集合へ分割するトピックセグメンテーション過程と(ステップ3)、
トピックセグメンテーション過程で得られた各セグメントに対して、セグメントに含まれる単語ベクトルを利用して、距離が近いセグメントを同一クラスタとする基準により、階層的にクラスタリングし、各クラスタをノードとするツリーを生成するセグメントクラスタリング過程と、
要約対象のクラスタCに含まれる各単語について、該クラスタC内の単語ベクトルの重心との距離Twと、該クラスタCと階層的に兄弟関係にあるクラスタ群に含まれる単語ベクトルの重心との距離Uwを求め、UwをTwで除したスコアが大きい単語から順にある個数だけ単語を出力する要約過程と、
セグメントクラスタリング過程で得られたツリーの上で、要約過程で得られた各クラスタの単語を、該クラスタのノードのラベルとして出力する話題構造出力過程と、を行う。
単語の意味を表現するベクトルが格納されている記憶手段である概念ベース27と、
概念ベース27を検索することによって、形態素解析手段21で得られた各単語に対応するベクトルを取得する単語ベクトル取得手段22と、
単語ベクトル取得手段22で得られた単語ベクトルの系列から、テキストを同一話題の区間であるセグメントの集合へ分割するトピックセグメンテーション手段23と、
トピックセグメンテーション手段23で得られた各セグメントに対して、セグメントに含まれる単語ベクトルを利用して、距離が近いセグメントを同一クラスタとする基準により、階層的にクラスタリングし、各クラスタをノードとするツリーを生成するセグメントクラスタリング手段24と、
要約対象のクラスタCに含まれる各単語について、該クラスタC内の全ての単語ベクトルとの距離の自乗の和であるTwと、該クラスタCと階層的に兄弟関係にあるクラスタ群に含まれる全ての単語ベクトルとの距離の自乗の和であるUwを求め、UwをTwで除したスコアが大きい単語から順にある個数だけ単語を出力する要約手段25と、
セグメントクラスタリング手段24で得られたツリーの上で、要約手段25で得られた各クラスタの単語を、該クラスタのノードのラベルとして出力する話題構造出力手段26と、を有する。
単語の意味を表現するベクトルが格納されている記憶手段である概念ベースと、
概念ベースを検索することによって、形態素解析手段で得られた各単語に対応するベクトルを取得する単語ベクトル取得手段と、
単語ベクトル取得手段で得られた単語ベクトルの系列から、テキストを同一話題の区間であるセグメントの集合へ分割するトピックセグメンテーション手段と、
トピックセグメンテーション手段で得られた各セグメントに対して、セグメントに含まれる単語ベクトルを利用して、距離が近いセグメントを同一クラスタとする基準により、階層的にクラスタリングし、各クラスタをノードとするツリーを生成するセグメントクラスタリング手段と、
要約対象のクラスタCに含まれる各単語について、該クラスタC内の単語ベクトルの重心との距離Twと、該クラスタCと階層的に兄弟関係にあるクラスタ群に含まれる単語ベクトルの重心との距離Uwを求め、UwをTwで除したスコアが大きい単語から順にある個数だけ単語を出力する要約手段と、
セグメントクラスタリング手段で得られたツリーの上で、要約手段で得られた各クラスタの単語を、該クラスタのノードのラベルとして出力する話題構造出力手段と、
を有する。
ステップ101)
初期のクラスタ集合を、Ci=Si(1≦i≦n)とする。各CiにコストE(D)を対応付けて記憶しておく。クラスタCi,Cj(1≦i,j≦n,i≠j)の間の距離ΔE(Ci,Cj)を式(1)によって計算する。
距離最小のクラスタ対を探して結合する。
全てのCi∈D,Ci≠C´についてクラスタ間の距離ΔE(C´,Ci)を再計算する。ΔE(C´,Ci)は、
ステップ201)
ルートノードのコストe1とリーフノードのコストe0を端点とする区間を指定した数で等分する。図7では3等分しており、新しくできる等分点はf1,f2でる。以下、等分点といったときは、端点も含めるものとする。
ルートノードを引数にして関数Aを呼び出す。
引数のノードXがリーフなら終了する。
Tw=‖M(C)−vw‖ w∈G
とおく。これは、G内のある単語wに対して定まる値で、wのベクトルとC内の単語ベクトルの重心との距離である。
Uw=‖M(I)−vw‖ w∈G
とおく。これも、G内のある単語wに対して定まる値で、wのベクトルとI内の単語ベクトルの重心との距離である。
22 単語ベクトル取得手段、単語ベクトル取得部
23 トピックセグメンテーション手段、トピックセグメンテーション部
24 セグメントクラスタリング手段、セグメントクラスタリング部
25 要約手段、要約部
26 話題構造出力手段、話題構造出力部
27 概念ベース
28 制御手段、制御部
Claims (5)
- テキストを単語単位に分割する形態素解析手段と、
単語の意味を表現するベクトルが格納されている記憶手段である概念ベースと、
前記概念ベースを検索することによって、前記形態素解析手段で得られた各単語に対応するベクトルを取得する単語ベクトル取得手段と、
前記単語ベクトル取得手段で得られた単語ベクトルの系列から、前記テキストを同一話題の区間であるセグメントの集合へ分割するトピックセグメンテーション手段と、
前記トピックセグメンテーション手段で得られた各セグメントに対して、セグメントに含まれる単語ベクトルを利用して、距離が近いセグメントを同一クラスタとする基準により、階層的にクラスタリングし、各クラスタをノードとするツリーを生成するセグメントクラスタリング手段と、
要約対象のクラスタCに含まれる各単語について、該クラスタC内の全ての単語ベクトルとの距離の自乗の和であるTwと、該クラスタCと階層的に兄弟関係にあるクラスタ群に含まれる全ての単語ベクトルとの距離の自乗の和であるUwを求め、UwをTwで除したスコアが大きい単語から順にある個数だけ単語を出力する要約手段と、
前記セグメントクラスタリング手段で得られたツリーの上で、前記要約手段で得られた各クラスタの単語を、該クラスタのノードのラベルとして出力する話題構造出力手段と、
を有することを特徴とする話題構造抽出装置。 - テキストを単語単位に分割する形態素解析手段と、
単語の意味を表現するベクトルが格納されている記憶手段である概念ベースと、
前記概念ベースを検索することによって、前記形態素解析手段で得られた各単語に対応するベクトルを取得する単語ベクトル取得手段と、
前記単語ベクトル取得手段で得られた単語ベクトルの系列から、前記テキストを同一話題の区間であるセグメントの集合へ分割するトピックセグメンテーション手段と、
前記トピックセグメンテーション手段で得られた各セグメントに対して、セグメントに含まれる単語ベクトルを利用して、距離が近いセグメントを同一クラスタとする基準により、階層的にクラスタリングし、各クラスタをノードとするツリーを生成するセグメントクラスタリング手段と、
要約対象のクラスタCに含まれる各単語について、該クラスタC内の単語ベクトルの重心との距離Twと、該クラスタCと階層的に兄弟関係にあるクラスタ群に含まれる単語ベクトルの重心との距離Uwを求め、UwをTwで除したスコアが大きい単語から順にある個数だけ単語を出力する要約手段と、
前記セグメントクラスタリング手段で得られたツリーの上で、前記要約手段で得られた各クラスタの単語を、該クラスタのノードのラベルとして出力する話題構造出力手段と、
を有することを特徴とする話題構造抽出装置。 - 前記トピックセグメンテーション手段で得られた各セグメント毎に、該トピックセグメンテーション手段に該セグメントSをより短い区間のセグメントの集合へ分割させる制御を行い、この結果得られた、該セグメントS内のセグメント集合を前記セグメントクラスタリング手段に階層的にクラスタリングさせる制御を行う制御手段を更に併せ持つ請求項1または2に記載の話題構造抽出装置。
- 請求項1乃至3の何れか1項に記載の話題構造抽出装置を構成する手段としてコンピュータを機能させるための話題構造抽出プログラム。
- 請求項4に記載の話題構造抽出プログラムを格納したコンピュータ読み取り可能な記憶媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003357372A JP4333318B2 (ja) | 2003-10-17 | 2003-10-17 | 話題構造抽出装置及び話題構造抽出プログラム及び話題構造抽出プログラムを記録したコンピュータ読み取り可能な記憶媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003357372A JP4333318B2 (ja) | 2003-10-17 | 2003-10-17 | 話題構造抽出装置及び話題構造抽出プログラム及び話題構造抽出プログラムを記録したコンピュータ読み取り可能な記憶媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005122510A JP2005122510A (ja) | 2005-05-12 |
JP4333318B2 true JP4333318B2 (ja) | 2009-09-16 |
Family
ID=34614279
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003357372A Expired - Lifetime JP4333318B2 (ja) | 2003-10-17 | 2003-10-17 | 話題構造抽出装置及び話題構造抽出プログラム及び話題構造抽出プログラムを記録したコンピュータ読み取り可能な記憶媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4333318B2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012118657A (ja) * | 2010-11-30 | 2012-06-21 | Nippon Telegr & Teleph Corp <Ntt> | 文書分割検索装置及び方法及びプログラム |
JP2012247834A (ja) * | 2011-05-25 | 2012-12-13 | Nippon Telegr & Teleph Corp <Ntt> | 文書分割スコアリング装置、方法、及びプログラム |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8117204B2 (en) * | 2008-02-04 | 2012-02-14 | Fuji Xerox Co., Ltd. | Video browser for navigating linear video on small display devices using a similarity-based navigation hierarchy of temporally ordered video keyframes with short navigation paths |
JP4594992B2 (ja) * | 2008-03-03 | 2010-12-08 | 日本電信電話株式会社 | 文書データ分類装置、文書データ分類方法、そのプログラム及び記録媒体 |
JP5224532B2 (ja) * | 2009-02-25 | 2013-07-03 | 日本電信電話株式会社 | 評判情報分類装置及びプログラム |
JP5253317B2 (ja) * | 2009-07-28 | 2013-07-31 | 日本電信電話株式会社 | 要約文作成装置、要約文作成方法、プログラム |
WO2012111226A1 (ja) * | 2011-02-15 | 2012-08-23 | 日本電気株式会社 | 時系列文書要約装置、時系列文書要約方法およびコンピュータ読み取り可能な記録媒体 |
JP6239344B2 (ja) * | 2013-10-31 | 2017-11-29 | 株式会社東芝 | テキスト処理装置、テキスト処理方法およびプログラム |
KR20150081981A (ko) * | 2014-01-07 | 2015-07-15 | 삼성전자주식회사 | 회의 내용 구조화 장치 및 방법 |
JP6215137B2 (ja) * | 2014-05-26 | 2017-10-18 | 日本電信電話株式会社 | 対話分割装置、方法、及びプログラム |
JP6908987B2 (ja) * | 2016-11-04 | 2021-07-28 | 株式会社イトーキ | 会議分析装置、会議分析方法、及びプログラム |
JP6370961B2 (ja) * | 2017-05-10 | 2018-08-08 | アイマトリックス株式会社 | グラフ理論を用いた解析方法、解析プログラムおよび解析システム |
CN108776706A (zh) * | 2018-06-13 | 2018-11-09 | 北京信息科技大学 | 一种基于本体的专利技术主题聚类方法 |
JP2021179832A (ja) * | 2020-05-14 | 2021-11-18 | 富士通株式会社 | 変化検出プログラム、変化検出装置及び変化検出方法 |
CN112231471B (zh) * | 2020-09-04 | 2022-06-07 | 大箴(杭州)科技有限公司 | 文本处理方法及装置、计算机设备、存储介质 |
JP7048024B1 (ja) | 2021-09-30 | 2022-04-05 | 株式会社ShareFair | 情報処理装置、情報処理方法、および情報処理プログラム |
-
2003
- 2003-10-17 JP JP2003357372A patent/JP4333318B2/ja not_active Expired - Lifetime
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012118657A (ja) * | 2010-11-30 | 2012-06-21 | Nippon Telegr & Teleph Corp <Ntt> | 文書分割検索装置及び方法及びプログラム |
JP2012247834A (ja) * | 2011-05-25 | 2012-12-13 | Nippon Telegr & Teleph Corp <Ntt> | 文書分割スコアリング装置、方法、及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
JP2005122510A (ja) | 2005-05-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP1736901B1 (en) | Method for classifying sub-trees in semi-structured documents | |
Inzalkar et al. | A survey on text mining-techniques and application | |
JP4333318B2 (ja) | 話題構造抽出装置及び話題構造抽出プログラム及び話題構造抽出プログラムを記録したコンピュータ読み取り可能な記憶媒体 | |
US7295967B2 (en) | System and method of analyzing text using dynamic centering resonance analysis | |
KR101136007B1 (ko) | 문서 감성 분석 시스템 및 그 방법 | |
JP2005526317A (ja) | ドキュメントコーパスからコンセプト階層構造を自動に捜索する方法及びシステム | |
JPWO2009063925A1 (ja) | 文書管理・検索システムおよび文書の管理・検索方法 | |
CN114254653A (zh) | 一种科技项目文本语义抽取与表示分析方法 | |
CN113221559B (zh) | 利用语义特征的科技创新领域中文关键短语抽取方法及系统 | |
Kutter | Corpus analysis | |
JP4325370B2 (ja) | 文書関連語彙獲得装置及びプログラム | |
JP6409071B2 (ja) | 文の並び替え方法および計算機 | |
Koutropoulou et al. | TMG-BoBI: generating back-of-the-book indexes with the text-to-matrix-generator | |
JPH1196177A (ja) | 用語辞書生成方法および用語辞書生成プログラムを記録した記録媒体 | |
Ali et al. | Arabic keyphrases extraction using a hybrid of statistical and machine learning methods | |
Tadesse et al. | Event extraction from unstructured amharic text | |
Puscasu | A multilingual method for clause splitting | |
Melero et al. | Selection of correction candidates for the normalization of Spanish user-generated content | |
Elamine et al. | Intrinsic Detection of Plagiarism based on Writing Style Grouping. | |
Zenasni et al. | Discovering types of spatial relations with a text mining approach | |
JP5744150B2 (ja) | 発話生成装置、方法、及びプログラム | |
TWI813028B (zh) | 文字資料之篩選關聯方法及系統 | |
Dasri et al. | Text mining framework, methods and techniques | |
Abainia et al. | Topic Identification of Noisy Arabic Texts Using Graph Approaches | |
Škrlj et al. | Retrieval-efficiency trade-off of Unsupervised Keyword Extraction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060414 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090310 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090501 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20090602 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20090615 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120703 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4333318 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130703 Year of fee payment: 4 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
EXPY | Cancellation because of completion of term |