JP5320326B2 - 記号変換装置、記号変換方法、記号変換プログラム - Google Patents
記号変換装置、記号変換方法、記号変換プログラム Download PDFInfo
- Publication number
- JP5320326B2 JP5320326B2 JP2010044487A JP2010044487A JP5320326B2 JP 5320326 B2 JP5320326 B2 JP 5320326B2 JP 2010044487 A JP2010044487 A JP 2010044487A JP 2010044487 A JP2010044487 A JP 2010044487A JP 5320326 B2 JP5320326 B2 JP 5320326B2
- Authority
- JP
- Japan
- Prior art keywords
- symbol
- role
- meaning
- sentence
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Description
図1に示された発明の実施形態に係る記号変換装置1は入力された電子文書に含まれる一つの記号が特に意味を有しない場合や複数の意味候補を有する場合に当該記号の文特徴量に対応した役割情報に基づき当該記号を適切な文字列に変換する。
(1)図16(a)に例示された文書のように記号が内容語(名詞、動詞、形容詞の単語)の代わりとして用いられ、文中において内容語としての役割を果たす「内容語」としての役割。
(2)図16(b)に例示された文書のように記号が文中の内容語の繰り返しとして用いられる「内容添加」としての役割。
(3)図16(c)に例示された文書のように記号が本文の内容語に関係なく単なる飾りとして用いられる「装飾」としての役割。
(4)図16(d)に例示された文書のように記号が本文の内容に対して何かしらの感情表現を付加するために用いられる「モダリティ」としての役割。
記号変換装置1は図17に示されたCPU51、RAM52、ROM53、ハードディスクドライブ装置54、I/F(入出力デバイス)55等のハードウェアリソースを備える。このハードウェアリソースがソフトウェアリソース(OS、アプリケーション等)と協働することより図1に示された記号変換装置1を構成する語義辞書生成手段11、役割分類モデル生成手段12、役割特定手段13、変換文字列選択手段14とが実装される。
記号変換装置1は、予め作成された語義辞書17、役割分類モデル18を用いて、入力文19に含まれる記号を適切な変換文字列20に変換する。
記号の表す文字列は、役割によって性質が異なるとする。例えば、内容語の役割のときの図16(e)に例示された「記号」は{太陽、夏、朝、晴れ}などの「内容語」の意味を有するものである。モダリティの役割のときの同「記号」は{楽しい、嬉しい、美味しい}などの「モダリティ」の意味を有するものである。そのため、役割によって語義辞書を用意する。ここでは、内容語は内容語語義辞書25に格納され、モダリティはモダリティ語義辞書33に格納される。語義辞書生成手段11は内容語語義辞書25及びモダリティ語義辞書33の作成を行う。
役割分類モデル生成手段12は、文中の各記号に対し4つの役割のいずれかが付与されたテキスト集合16のデータを用いて学習を行うことにより、4つの役割(内容語,内容添加,装飾,モダリティ)のそれぞれについて分類を行うための分類器を生成する。この分類器は、4つの役割の一つ一つに対応して生成する。先ず、内容語とそれ以外を識別するもの、次に、内容添加とそれ以外を識別するもの、その次に、装飾とモダリティを識別するものの順に生成する。
入力文19に含まれる記号の文字列への変換の手順は、役割特定手段13が当該記号の役割を特定する手順と、変換文字列選択手段14が前記特定された記号の役割と語義辞書17とに基づき当該記号を変換文字列20に変換する手順とからなる。
図8を参照しながら記号の役割の特定手順S81〜S90について説明する。
変換文字列選択手段14は、入力文19中の対象としている一記号に対し、役割特定手段13によって特定された役割に基づき語義辞書17(内容語義辞書25,モダリティ語義辞書33)から変換文字列20を抽出することで当該記号の文字列への変換を行う。
以上の記号変換装置1によれば、テキスト集合において、文中で記号と共起する語を用いるので、文中の記号について、文脈に即した語義の集合を取得できる。
本発明は、専用のハードウェアにより実現されるもの以外に、上述の記号変換装置1を構成する機能手段11〜18としてコンピュータを機能させる記号変換プログラムの態様とすることもできる。また、このプログラムを格納したコンピュータ読み取り可能な記録媒体も本発明の一態様となる。記録媒体としては、フレキシブルディスク、光磁気ディスク、CD−ROM、DVD−ROMに例示されるような、図17に示されたCPU51が記録媒体読取装置56を介して読み取り可能な周知の記録媒体57が挙げられる。または、コンピュータシステムに内蔵されるハードディスクドライブ装置54等の記憶装置が例示される。さらに、記録媒体としては、通信回線を介してプログラムを送信する場合のように、短時間の間、動的にプログラムを保持するもの(伝送媒体もしくは伝送波)、その場合のサーバとなるコンピュータシステム内部の揮発性メモリのように一定時間プログラムを保持しているものも含まれる。
11…語義辞書生成手段
12…役割分類モデル生成手段(分類器生成手段)
13…役割特定手段
14…変換文字列選択手段
17…語義辞書
18…役割分類モデル(分類器)
Claims (5)
- 入力文に含まれる記号を文字列に変換する記号変換装置であって、
入力文中の単語の品詞と入力文中の記号の出現位置とを成分とする特徴ベクトルである当該記号の文特徴量と、任意の文特徴量から記号の役割を特定するための分類器とに基づき、当該記号の役割を特定する役割特定手段と、
前記役割特定手段によって特定された当該記号の役割に対応した語義集合を、記号の役割に対応した語義集合を格納した語義辞書から引き出し、この引き出した語義集合のうちで当該記号を語義に置換した当該入力文の文特徴と当該語義との類似度が最も大きい語義を当該記号の変換文字列と決定する変換文字列選択手段と、
学習用のテキスト集合に含まれるテキスト文書における記号と共起する語を用いて当該記号の役割に対応した語義の集合を抽出することにより前記語義辞書を生成する語義辞書生成手段と、
前記テキスト集合に含まれるテキスト文書中の単語の品詞と当該文書中の記号の出現位置とを成分とする特徴ベクトルである当該記号の文特徴量を算出し、この算出した文特徴量と当該記号の役割との対応関係を学習することにより前記分類器を作成する分類器生成手段と
を備え、
前記分類器生成手段は前記記号の文特徴の成分として前記語義辞書中の前記テキスト文書における記号の語義と当該テキスト文書中の語との意味的な類似度を加えた特徴量を算出し、この算出した文特徴量と当該記号の他の役割との対応関係を学習することにより、前記役割特定手段に供される他の分類器を作成すること
を特徴とする記号変換装置。 - 前記役割特定手段は入力文中の記号の文特徴量と前記他の分類器とに基づき当該記号の役割として内容添加、装飾、モダリティのいずれかを特定すること
を特徴とする請求項1に記載の記号変換装置。 - 入力文に含まれる記号を文字列に変換する記号変換方法であって、
役割特定手段が、入力文中の単語の品詞と入力文中の記号の出現位置とを成分とする特徴ベクトルである当該記号の文特徴量と、任意の文特徴量から記号の役割を特定するための分類器とに基づき、当該記号の役割を特定するステップと、
変換文字列選択手段が、前記役割特定手段によって特定された当該記号の役割に対応した語義集合を、記号の役割に対応した語義集合を格納した語義辞書から引き出し、この引き出した語義集合のうちで当該記号を語義に置換した当該入力文の文特徴と当該語義との類似度が最も大きい語義を当該記号の変換文字列と決定するステップと、
語義辞書生成手段が、学習用のテキスト集合に含まれるテキスト文書における記号と共起する語を用いて当該記号の役割に対応した語義の集合を抽出することにより前記語義辞書を生成するステップと、
分類器生成手段が、前記テキスト集合に含まれるテキスト文書中の単語の品詞と当該文書中の記号の出現位置とを成分とする当該記号の文特徴量を算出し、この算出した文特徴量と当該記号の役割との対応関係を学習することにより前記分類器を作成するステップと、
前記分類器生成手段が、前記記号の文特徴の成分として前記語義辞書中の前記テキスト文書における記号の語義と当該テキスト文書中の語との意味的な類似度を加えた特徴量を算出し、この算出した文特徴量と当該記号の他の役割と対応関係を学習することにより、前記役割を特定するステップに供される他の分類器を作成するステップと
を有すること
を特徴とする記号変換方法。 - 前記役割を特定するステップにおいては、入力文中の記号の文特徴量と前記他の分類器とに基づき当該記号の役割として内容添加、装飾、モダリティのいずれかを特定すること
を特徴とする請求項3に記載の記号変換方法。 - 請求項1または2に記載の記号変換装置を構成する各手段としてコンピュータを機能させることを特徴とする記号変換プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010044487A JP5320326B2 (ja) | 2010-03-01 | 2010-03-01 | 記号変換装置、記号変換方法、記号変換プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010044487A JP5320326B2 (ja) | 2010-03-01 | 2010-03-01 | 記号変換装置、記号変換方法、記号変換プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011180836A JP2011180836A (ja) | 2011-09-15 |
JP5320326B2 true JP5320326B2 (ja) | 2013-10-23 |
Family
ID=44692276
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010044487A Expired - Fee Related JP5320326B2 (ja) | 2010-03-01 | 2010-03-01 | 記号変換装置、記号変換方法、記号変換プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5320326B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6124489B1 (ja) * | 2016-08-01 | 2017-05-10 | ヤフー株式会社 | クエリ提供装置、クエリ提供方法、およびクエリ提供プログラム |
CN110362684B (zh) * | 2019-06-27 | 2022-10-25 | 腾讯科技(深圳)有限公司 | 一种文本分类方法、装置及计算机设备 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008203984A (ja) * | 2007-02-16 | 2008-09-04 | Nec Corp | 文字列変換装置及び文字列変換方法 |
WO2008114453A1 (ja) * | 2007-03-20 | 2008-09-25 | Fujitsu Limited | 音声合成装置、音声合成システム、言語処理装置、音声合成方法及びコンピュータプログラム |
-
2010
- 2010-03-01 JP JP2010044487A patent/JP5320326B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2011180836A (ja) | 2011-09-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10713571B2 (en) | Displaying quality of question being asked a question answering system | |
US9224155B2 (en) | Systems and methods for managing publication of online advertisements | |
CN109844742B (zh) | 分析系统 | |
Donato et al. | Investigating redundancy in emoji use: Study on a twitter based corpus | |
KR101751113B1 (ko) | 기억 능력을 이용하는 다중 사용자 기반의 대화 관리 방법 및 이를 수행하는 장치 | |
KR101326354B1 (ko) | 문자 변환 처리 장치, 기록 매체 및 방법 | |
JP5403696B2 (ja) | 言語モデル生成装置、その方法及びそのプログラム | |
CN111414561B (zh) | 用于呈现信息的方法和装置 | |
US9262400B2 (en) | Non-transitory computer readable medium and information processing apparatus and method for classifying multilingual documents | |
Mukund et al. | A vector space model for subjectivity classification in Urdu aided by co-training | |
Shyamasundar et al. | Twitter sentiment analysis with different feature extractors and dimensionality reduction using supervised learning algorithms | |
CN115114919A (zh) | 呈现提示信息的方法和装置以及存储介质 | |
Ali et al. | Sentiment summerization and analysis of Sindhi text | |
JP6433937B2 (ja) | キーワード評価装置、類似度評価装置、検索装置、評価方法、検索方法、及びプログラム | |
JP5320326B2 (ja) | 記号変換装置、記号変換方法、記号変換プログラム | |
JP4054046B2 (ja) | 意見性判定データベース作成方法及び装置及びプログラム及び意見性判定方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体 | |
JP2019159696A (ja) | 検索装置および方法 | |
JP6495124B2 (ja) | 用語意味コード判定装置、用語意味コード判定モデル学習装置、方法、及びプログラム | |
JP4478042B2 (ja) | 頻度情報付き単語集合生成方法、プログラムおよびプログラム記憶媒体、ならびに、頻度情報付き単語集合生成装置、テキスト索引語作成装置、全文検索装置およびテキスト分類装置 | |
JP3471253B2 (ja) | 文書分類方法、文書分類装置、および文書分類プログラムを記録した記録媒体 | |
JP5506482B2 (ja) | 固有表現抽出装置、文字列−固有表現クラス対データベース作成装置、固有表現抽出方法、文字列−固有表現クラス対データベース作成方法、プログラム | |
JP5744150B2 (ja) | 発話生成装置、方法、及びプログラム | |
JP5398638B2 (ja) | 記号入力支援装置、記号入力支援方法、及びプログラム | |
JP2008282328A (ja) | テキスト分類装置、テキスト分類方法及びテキスト分類プログラム並びにそのプログラムを記録した記録媒体 | |
JP5527504B2 (ja) | 語句抽出ルール生成装置、語句抽出システム、語句抽出ルール生成方法、及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120131 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130319 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130520 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130709 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130712 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5320326 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |