JP2005275757A - 文章分類装置及び文章分類方法 - Google Patents

文章分類装置及び文章分類方法 Download PDF

Info

Publication number
JP2005275757A
JP2005275757A JP2004087475A JP2004087475A JP2005275757A JP 2005275757 A JP2005275757 A JP 2005275757A JP 2004087475 A JP2004087475 A JP 2004087475A JP 2004087475 A JP2004087475 A JP 2004087475A JP 2005275757 A JP2005275757 A JP 2005275757A
Authority
JP
Japan
Prior art keywords
sentence
classification
information
classified
impression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004087475A
Other languages
English (en)
Inventor
Goro Otsubo
五郎 大坪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Denso IT Laboratory Inc
Original Assignee
Denso IT Laboratory Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Denso IT Laboratory Inc filed Critical Denso IT Laboratory Inc
Priority to JP2004087475A priority Critical patent/JP2005275757A/ja
Publication of JP2005275757A publication Critical patent/JP2005275757A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】 文章中に出現する単語及び単語の出現頻度に基づいて文章の種類を識別することができる文章分類装置及び文章分類方法を提供する。
【解決手段】 文章の種類を判別して分類する対象となるべき分類対象文章を読み取る読み取り手段101と、読み取られた分類対象文章の種類を判別する基準とすべく、文章中に出現する単語とその出現頻度によって文章を特徴化した特徴化情報202に、紹介文章か又は感想文章かの分類情報201を付した分類情報付加情報200をあらかじめ記憶する記憶手段102と、読み取られた分類対象文章を分類対象文章中に出現する単語とその出現頻度によって特徴化する特徴化手段103と、特徴化手段によって特徴化された分類対象文章が紹介文章か又は感想文章かを、記憶手段に記憶された分類情報付加情報に基づいて判定する判定手段104とを備える。
【選択図】 図1

Description

本発明は、文章中に出現する単語などに基づいて文章を分類する文章分類装置及び文章分類方法に関する。
従来から文章中の単語に基づいて文章意図を判定し、文章を文章意図によって分類する文章分類装置及び文章分類方法が存在する。このような文章分類装置及び文章分類方法が下記の特許文献1に開示されている。
特開2003−108568号公報(段落0005)
しかしながら、特許文献1に開示された文章分類装置及び文章分類方法では、文章の書き手の意図は抽出できるが、文章の種類を識別することはできないという問題があった。
本発明は、上記問題を解決するためのものであり、文章中に出現する単語及び単語の出現頻度に基づいて文章の種類を識別することができる文章分類装置及び文章分類方法を提供することを目的とする。
上記目的を達成するために、本発明によれば、文章の種類を判別して分類する対象となるべき分類対象文章を読み取る読み取り手段と、前記読み取り手段によって読み取られた前記分類対象文章の種類を判別する基準とすべく、文章中に出現する単語とその出現頻度によって文章を特徴化した特徴化情報に、紹介文章か又は感想文章かの分類情報を付した分類情報付加情報をあらかじめ記憶する記憶手段と、前記読み取り手段によって読み取られた前記分類対象文章を前記分類対象文章中に出現する単語とその出現頻度によって特徴化する特徴化手段と、前記特徴化手段によって特徴化された前記分類対象文章が、紹介文章か又は感想文章かを前記記憶手段に記憶された前記分類情報付加情報に基づいて判定する判定手段とを備える文章分類装置が提供される。この構成により、文章中に出現する単語及びその出現頻度に基づいて文章の種類を識別することができる。
また、本発明の文章分類装置における判定手段がSVM手法を用いて判定することは、本発明の好ましい態様である。この構成により、効率よく文章の種類を識別することができる。
また、本発明によれば、文章の種類を判別して分類する対象となるべき分類対象文章を読み取るステップと、読み取られた前記分類対象文章を前記分類対象文章中に出現する単語とその出現頻度によって特徴化するステップと、特徴化された前記分類対象文章が紹介文章か又は感想文章かを、所定の記憶領域に記憶された、文章中に出現する単語とその出現頻度によって文章を特徴化した特徴化情報に紹介文章か又は感想文章かの分類情報を付した分類情報付加情報に基づいて判定するステップとを有する文章分類方法が提供される。この構成により、文章中に出現する単語及びその出現頻度に基づいて文章の種類を識別することができる。
また、本発明の文章分類方法において前記紹介文章か又は感想文章かを判定する際に、SVM手法を用いて判定することは、本発明の好ましい態様である。この構成により、効率よく文章の種類を識別することができる。
本発明の文章分類装置及び文章分類方法は、上記構成を有し、文章中に出現する単語及び単語の出現頻度に基づいて文章の種類を識別することができる。
以下、本発明の実施の形態について、図1から図4を用いて説明する。図1は、本発明の実施の形態に係る文章分類装置の構成を示す構成図である。図2は、本発明の実施の形態に係る文章分類装置における分類情報付加情報について説明するための図である。図3は、本発明の実施の形態に係る文章分類装置におけるSVM(Support Vector Machine)を用いた文章の種類の識別について説明するための図である。図4は、本発明の実施の形態に係る文章分類装置における文章の種類の分類フローについて説明するためのフローチャートである。
まず、本発明の実施の形態に係る文章分類装置の構成について図1を用いて説明する。図1に示すように、文章分類装置100は、読み取り部101、記憶部102、特徴化部103、判定部104から構成されている。なお、これらはバスによってつながれている。また、これら各部の動作を制御するための制御プログラムが所定の不図示の記憶領域又は記憶部102に格納されている。また、文章分類装置100は、外部との情報のやり取りを行うための不図示のインターフェースを有している。また、読み取り部101、特徴化部103、判定部104は、例えばCPUなどに相当し、記憶部102は、例えばHDD、ROM、RAMなどに相当する。
読み取り部101は、文章の種類を判別して分類する対象となるべき分類対象文章を読み取る。ここで、分類対象文章とは、例えば公共の施設の紹介文、テーマパークに関する紹介文などの紹介文章や、上述した公共の施設に関する感想文、上述したテーマパークに関する感想文などの感想文章などを言う。しかし、分類対象文章は上述したものに限られず、批判文章など他の種類の文章であってもよい。記憶部102は、読み取り部101によって読み取られた分類対象文章の種類を判別する基準とすべく、文章中に出現する単語とその出現頻度によって文章を特徴化した特徴化情報に、紹介文章か又は感想文章かの分類情報を付した分類情報付加情報をあらかじめ記憶する。ここで、単語とその出現頻度によって特徴化された特徴化情報に分類情報を付した分類情報付加情報を図2に示す。図2に示すように、分類情報付加情報200は、分類情報201と特徴化情報202とから構成されている。
分類情報201は、該当する文章が紹介文章であるか感想文章であるかを識別するための情報であって、例えば紹介文章を示すものの場合には分類情報201は+1であり、感想文章を示すものの場合には分類情報201は−1である。また、特徴化情報202は、単語の種類を示す単語種別情報203と単語の出現頻度を示す出現頻度情報204とから構成されている。単語種別情報203は、例えば品詞を表したものであり、名詞を「3」、動詞を「5」、副詞を「7」などとしたものである。また、出現頻度情報204は、例えば該当する文章中に出現する単語数を分母とし、該当する単語の出現回数を分子として算出されたものである。すわなち、文章中に出現する単語数が1000の場合であって、該当する単語の出現回数が10であれば、出現頻度情報204は10/1000=0.01である。
なお、分類情報付加情報200は、図1に示す外部装置108によって生成される。具体的には、文章解析部105が文章を形態素解析処理により形態素に分解する。このような形態素に分解する方法は、特に限定するものではなく従来から用いられている方法である。次に、頻度算出部106が指定された品詞の単語を対象として、その文章中に出現した単語の種類とその単語の出現頻度を算出する。次に、事前特徴化部107が文章中に出現する単語とその出現頻度をペアとして特徴化情報202を生成し、分類情報201を付加し、分類情報付加情報200を生成する。この生成された分類情報付加情報200が記憶部102に引き渡されて記憶される。なお、外部装置108による処理を文章分類装置100の内部で行うようにしても実施可能である。
特徴化部103は、読み取り部101によって読み取られた分類対象文章を分類対象文章中に出現する単語とその出現頻度によって特徴化する。この特徴化する処理も上述した外部装置108で行われているような手順で行われる。判定部104は、特徴化部103によって特徴化された分類対象文章が紹介文章か又は感想文章かを、記憶部102に記憶された分類情報付加情報200に基づいて判定する。ここで、判定をする手段としては、例えばSVMが用いられる。SVMとはパターン認識手法の1つである。具体的に図3を用いて説明する。
SVMでは、まず、あらかじめ記憶部102に記憶されている分類情報付加情報200をプロットする必要がある。すなわち、既知のデータを学習させる必要がある。プロットの仕方は、まずプロットする空間の次元数を決める。プロットする空間の次元数は単語種別情報203の個数により決まる。すなわち、単語種別情報203の個数が2個(単語の種類が2種類)であればプロットする空間は2次元空間となる。また、単語種別情報203の個数が3個(単語の種類が3種類)であればプロットする空間は3次元空間となり、単語種別情報203の個数が3000個(単語の種類が3000種類)であればプロットする空間は3000次元空間となる。
プロットする空間が決まると、出現頻度情報204がその空間における値となる。例えば、単語種別情報203が「1」と「2」で、それに対応する出現頻度情報204が「0.5」と「0.3」の場合、すなわち2次元空間の場合、最初の次元をx、次の次元をyとすれば(x、y)=(0.5、0.3)となり、2次元空間にプロットされる。また、例えば、単語種別情報203が「1」、「2」、「3」で、それに対応する出現頻度情報204が「0.2」、「0.1」、「0.5」の場合、すなわち3次元空間の場合、最初の次元をx、次の次元をy、次の次元をzとすれば(x、y、z)=(0.2、0.1、0.5)となり、3次元空間にプロットされる。このように単語種別情報203の個数と出現頻度情報204の値に基づいて、あらかじめ記憶部102に記憶されたデータである分類情報付加情報200を多次元の空間にプロットすることができる。以上のような方法によって、紹介文章とされたもの及び感想文章とされたものの出現頻度情報204の値をプロットする。
プロットされた後に、SVMでは図3に示すように、識別線302と、プロットされたデータ(紹介文章に分類されたものであるデータ300a〜300dと感想文章に分類されたものであるデータ301a〜301d)との間の距離303(マージンとも言う)が最大になるような識別線302が設定される。このような状態で、特徴化部103によって特徴化された分類対象文章のデータ304を同様にプロットし、識別線302を境界にして、どちらの領域に属するかで紹介文章なのか感想文章なのかを分類する。なお、図3ではわかりやすくするため2次元空間におけるプロットを示しているが、上述したように単語種別情報203の個数によってプロットする空間の次元数は変化する。
次に、本発明の実施の形態に係る文章分類装置における文章分類フローについて図4を用いて説明する。読み取り部101は、文章の種類を判別して分類する対象となるべき分類対象文章を読み取る(ステップS401)。特徴化部103は、読み取り部101によって読み取られた分類対象文章を分類対象文章中に出現する単語とその単語の出現頻度によって特徴化する(ステップS402)。判定部104は、特徴化部103によって特徴化された分類対象文章が紹介文章か又は感想文章かを、記憶部102に記憶された上述した分類情報付加情報200に基づいて判定する(ステップS403)。ここで、判定部104において判定する際、上述したSVMによって紹介文章か感想文章かを判定することが望ましい。
本発明に係る文章分類装置及び文章分類方法は、文章中に出現する単語とその出現頻度に基づいて文章の種類を識別することができるため、文章中に出現する単語などに基づいて文章を分類する文章分類装置及び文章分類方法などに有用である。
本発明の実施の形態に係る文章分類装置の構成を示す構成図である。 本発明の実施の形態に係る文章分類装置における分類情報付加情報について説明するための図である。 本発明の実施の形態に係る文章分類装置におけるSVMを用いた文章の種類の識別について説明するための図である。 本発明の実施の形態に係る文章分類装置における文章の種類の分類フローについて説明するためのフローチャートである。
符号の説明
100 文章分類装置
101 読み取り部(読み取り手段)
102 記憶部(記憶手段)
103 特徴化部(特徴化手段)
104 判定部(判定手段)
105 文章解析部
106 頻度算出部
107 事前特徴化部
108 外部装置
200 分類情報付加情報
201 分類情報
202 特徴化情報
203 単語種別情報
204 出現頻度情報
300a、300b、300c、300d 紹介文章に分類されたデータ(紹介文章に分類された分類情報付加情報)
301a、301b、301c、301d 感想文章に分類されたデータ(感想文章に分類された分類情報付加情報)
302 識別線
303 距離(マージン)
304 特徴化された分類対象文章のデータ

Claims (4)

  1. 文章の種類を判別して分類する対象となるべき分類対象文章を読み取る読み取り手段と、
    前記読み取り手段によって読み取られた前記分類対象文章の種類を判別する基準とすべく、文章中に出現する単語とその出現頻度によって文章を特徴化した特徴化情報に、紹介文章か又は感想文章かの分類情報を付した分類情報付加情報をあらかじめ記憶する記憶手段と、
    前記読み取り手段によって読み取られた前記分類対象文章を前記分類対象文章中に出現する単語とその出現頻度によって特徴化する特徴化手段と、
    前記特徴化手段によって特徴化された前記分類対象文章が、紹介文章か又は感想文章かを前記記憶手段に記憶された前記分類情報付加情報に基づいて判定する判定手段とを、
    備える文章分類装置。
  2. 前記判定手段はSVM手法を用いて判定する請求項1に記載の文章分類装置。
  3. 文章の種類を判別して分類する対象となるべき分類対象文章を読み取るステップと、
    読み取られた前記分類対象文章を前記分類対象文章中に出現する単語とその出現頻度によって特徴化するステップと、
    特徴化された前記分類対象文章が紹介文章か又は感想文章かを、所定の記憶領域に記憶された、文章中に出現する単語とその出現頻度によって文章を特徴化した特徴化情報に紹介文章か又は感想文章かの分類情報を付した分類情報付加情報に基づいて判定するステップとを、
    有する文章分類方法。
  4. 前記紹介文章か又は感想文章かを判定する際に、SVM手法を用いて判定するステップをさらに有する請求項3に記載の文章分類方法。
JP2004087475A 2004-03-24 2004-03-24 文章分類装置及び文章分類方法 Pending JP2005275757A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004087475A JP2005275757A (ja) 2004-03-24 2004-03-24 文章分類装置及び文章分類方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004087475A JP2005275757A (ja) 2004-03-24 2004-03-24 文章分類装置及び文章分類方法

Publications (1)

Publication Number Publication Date
JP2005275757A true JP2005275757A (ja) 2005-10-06

Family

ID=35175378

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004087475A Pending JP2005275757A (ja) 2004-03-24 2004-03-24 文章分類装置及び文章分類方法

Country Status (1)

Country Link
JP (1) JP2005275757A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009265952A (ja) * 2008-04-25 2009-11-12 Chubu Electric Power Co Inc 文章情報グループ判別支援装置
CN103473356A (zh) * 2013-09-26 2013-12-25 苏州大学 一种篇章级情感分类方法及装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009265952A (ja) * 2008-04-25 2009-11-12 Chubu Electric Power Co Inc 文章情報グループ判別支援装置
CN103473356A (zh) * 2013-09-26 2013-12-25 苏州大学 一种篇章级情感分类方法及装置
CN103473356B (zh) * 2013-09-26 2017-01-25 苏州大学 一种篇章级情感分类方法及装置

Similar Documents

Publication Publication Date Title
JP6556575B2 (ja) 音声処理装置、音声処理方法及び音声処理プログラム
US20110176725A1 (en) Learning apparatus, learning method and program
JP2018502407A (ja) 等高線マッピングから導き出される移植可能な等高線メトリックを使用する学習型等高線識別システム
CN101542531A (zh) 图像识别装置及图像识别方法
WO2016015621A1 (zh) 人脸图片人名识别方法和系统
CN111723809B (zh) 评估目标检测模型的方法和系统
JP2015161745A (ja) パターン認識システムおよびプログラム
KR101706300B1 (ko) 기술용어 개념계층도 생성 장치 및 방법
JP2017004123A (ja) 判定装置、判定方法および判定プログラム
JP2015176175A (ja) 情報処理装置、情報処理方法、およびプログラム
CN111968625A (zh) 融合文本信息的敏感音频识别模型训练方法及识别方法
KR20210080224A (ko) 정보 처리 장치 및 정보 처리 방법
CN111028940B (zh) 肺结节多尺度检测方法、装置、设备及介质
EP4071710A1 (en) Object detecting device, object detecting method, and object detecting program
CN113936288A (zh) 倾斜文本方向分类方法、装置、终端设备和可读存储介质
JP2005275757A (ja) 文章分類装置及び文章分類方法
CN116258947B (zh) 适用于家居定制行业的工业自动化处理方法及系统
JP7161979B2 (ja) 説明支援装置、および、説明支援方法
CN112016387A (zh) 适用于毫米波安检仪的违禁品识别方法和装置
JP6582464B2 (ja) 情報入力装置、およびプログラム
TWI647586B (zh) 行為推論模型生成裝置及其行為推論模型生成方法
KR20220107697A (ko) 컨텐츠 유형 분류 방법 및 그 장치
JP2012185195A (ja) オーディオデータ特徴抽出方法、オーディオデータ照合方法、オーディオデータ特徴抽出プログラム、オーディオデータ照合プログラム、オーディオデータ特徴抽出装置、オーディオデータ照合装置及びオーディオデータ照合システム
CN113810333A (zh) 基于半监督谱聚类和集成svm的流量检测方法及系统
JP4444141B2 (ja) 情報処理装置、情報処理方法、情報処理プログラム及びこれを記録したコンピュータ読み取り可能な記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060815

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090529

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090723

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20090904