JP2007207161A - キーワード強調装置及びプログラム - Google Patents
キーワード強調装置及びプログラム Download PDFInfo
- Publication number
- JP2007207161A JP2007207161A JP2006028325A JP2006028325A JP2007207161A JP 2007207161 A JP2007207161 A JP 2007207161A JP 2006028325 A JP2006028325 A JP 2006028325A JP 2006028325 A JP2006028325 A JP 2006028325A JP 2007207161 A JP2007207161 A JP 2007207161A
- Authority
- JP
- Japan
- Prior art keywords
- question
- answer
- word
- interrogative
- noun
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- User Interface Of Digital Computer (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
【解決手段】質問とその回答の記事のセットを入力する入力手段2と、前記質問の文から疑問詞に後接する名詞又は疑問詞に後接する接尾辞を取り出す疑問詞後接語抽出手段4と、前記回答の記事において取り出した前記疑問詞に後接していた名詞又は接尾辞を強調表示する表示手段1とを備える。
【選択図】図1
Description
(1):表示手段で、取り出した疑問詞に後接していた名詞又は接尾辞を回答の記事において強調表示するため、表示された回答文書の中で本当に知りたい疑問詞に対応する表示部分を容易に見つけることができる。
図1はキーワード強調装置の説明図である。図1において、キーワード強調装置(システム)には、表示装置1、入力装置2、抽出装置3が設けてある。抽出装置3には、疑問詞後接語抽出装置4、主要語抽出装置5が設けてある。
図2は疑問詞の後ろに付く単語を強調表示するフローチャートである。以下、図2の処理S1〜S4に従って説明する。
S2:疑問詞後接語抽出装置4は、質問の文から疑問詞+「名詞or接尾辞」を取り出し、処理S3に移る。
ここで主要語は、名詞や動詞などである。ただし、あらかじめ指定した所定の単語は除く(例えば、「もの」「こと」などのあまり意味をなさない単語) 。
(質問)東京で偏差値の高いのは何大学ですか.
(回答)受験する学部により偏差値の値は異なりますが、一般的に東京大学の偏差値が各学部とも高いようです.
キーワード強調装置では、以下のように強調表示する(ここでは「<」、「>」で強調表示)。
(質問)東京で偏差値の高いのは何<大学>ですか.
(回答)受験する学部により偏差値の値は異なりますが、一般的には東京<大学>の偏差値が各学部とも高いようです.
疑問詞、名詞、接尾辞、動詞の単語の抽出は、形態素解析を使用して行うことができる。
ここでは ChaSen (日本語)について説明する。奈良先端大で開発されている形態素解析システム茶筌 http://chasen.aist-nara.ac.jp/index.html.jaで公開されている。
これは、日本語文を分割し、さらに、各単語の品詞も推定してくれる。
学校 ガッコウ 学校 名詞- 一般
へ ヘ へ 助詞- 格助詞- 一般
行く イク 行く 動詞- 自立 五段・カ行促音便 基本形
EOS
このように、各行に一個の単語が入るように分割され、各単語に読みや品詞の情報が付与される。
英語の品詞タグつけシステムとしては、次の Brillのものが有名である。
Eric Brill,
Transformation-Based Error-Driven Learning and
Natural Language Processing: A Case Study in Part-of-Speech Tagging,
Computational Linguistics, Vol. 21, No. 4, p.543-565, 1995.
これは、英語文の各単語の品詞を推定してくれるものである。
図3は疑問詞の後ろに付く単語を強調表示するフローチャートである。以下、図3の処理S11〜S14に従って説明する。
ここで主要語は、名詞や動詞などである。ただし、あらかじめ指定した所定の単語(例えば、「もの」「こと」などのあまり意味をなさない単語) は除く。
例:・・・・何個・・・・・の質問の場合、回答本文で、「3個」を黄色で強調表示する。これにより、強調表示部分を見ることで、質問に対する回答を容易に見つけることができる。
(質問)睡眠時間は何時間くらいがいいですか.
(回答)諸説別れますが,7時間から8時間がよいという説が一般的です.でもいつ寝るかも重要に思います.昼間長時間寝ても,夜寝るのに比べて効果が低いと思います.
キーワード強調装置では、以下のように強調表示する(ここでは「<」、「>」で強調表示)。
(回答)諸説別れますが,<7時間>から<8時間>がよいという説が一般的です.でもいつ寝るかも重要に思います.昼間長時間寝ても,夜寝るのに比べて効果が低いと思います.
また、以下のように強調表示することもできる(ここでは「<」、「>」で強調表示)。
(質問)睡眠時間は何<時間>くらいがいいですか.
(回答)諸説別れますが,7<時間>から8<時間>がよいという説が一般的です.でもいつ寝るかも重要に思います.昼間長<時間>寝ても,夜寝るのに比べて効果が低いと思います.
このように、すぐに7時間、8時間の表現に目がいき便利となる。
図4は数量表現を指す疑問詞を利用して強調表示するフローチャートである。以下、図4の処理S21〜S24に従って説明する。
ここで主要語は、名詞や動詞などである。ただし、あらかじめ指定した所定の単語(例えば、「もの」「こと」などのあまり意味をなさない単語) は除く。
例:・・・・いくつ・・・・の質問の場合、回答本文で、3個の「3」を黄色で強調表示する。これにより、強調表示部分を見ることで、質問に対する回答を容易に見つけることができる。
(質問)睡眠時間はどのくらいがいいですか.
(回答)諸説別れますが,7時間から8時間がよいという説が一般的です.でもいつ寝るかも重要に思います.昼間長時間寝ても,夜寝るのに比べて効果が低いと思います.
キーワード強調装置では、以下のように強調表示する(ここでは「<」、「>」で強調表示)。
(質問)睡眠時間はどのくらいがいいですか.
(回答)諸説別れますが,<7>時間から<8>時間がよいという説が一般的です.でもいつ寝るかも重要に思います.昼間長時間寝ても,夜寝るのに比べて効果が低いと思います.
図5は疑問詞の意味を利用して強調表示するフローチャートである。以下、図5の処理S31〜S34に従って説明する。
ここで主要語は、名詞や動詞などである。ただし、あらかじめ指定した所定の単語(例えば、「もの」「こと」などのあまり意味をなさない単語) は除く。
人名をさす疑問詞(例、「誰」)の場合は人名を
地名をさす疑問詞(例、「どこ」)の場合は地名を
時間をさす疑問詞(例、「いつ」)の場合は時間(春、夏等の季節も含む)を
それ専用の強調表示(常にバックに黄色を出すなど)する。
(質問)今年もっとも世間を騒がせた人物は誰でしょうか.
(回答)今年もいろいろとありましたが,総選挙,買収劇と,多方面に目立った人は,堀江氏でしょう.来年はどういった人物が出てくるか楽しみですね.
キーワード強調装置では、以下のように強調表示する(ここでは「<」、「>」で強調表示)。
(質問)今年もっとも世間を騒がせた人物は<誰>でしょうか.
(回答)今年もいろいろとありましたが,総選挙,買収劇と,多方面に目立った人は,<堀江氏>でしょう.来年はどういった人物が出てくるか楽しみですね.
図6は疑問詞の意味を利用して強調表示するフローチャートである。以下、図6の処理S41〜S44に従って説明する。
ここで主要語は、名詞や動詞などである。ただし、あらかじめ指定した所定の単語(例えば、「もの」「こと」などのあまり意味をなさない単語) は除く。
(質問)なぜコンピュータは便利なのでしょうか.
(回答)コンピュータは計算機とも呼ばれるもので,人間に代わって様々な計算をしてくれる便利な機械です.コンピュータは,一般に演算装置と記憶装置からなります.コンピュータは,プログラムを与えると演算装置と記憶装置でそれを実行し様々な計算をします.与えるプログラムを変えると,コンピュータはそれに応じた異なった処理を実行することができます.このため,コンピュータは様々な処理をできて便利なのです.
(質問)なぜコンピュータは便利なのでしょうか.
(回答)コンピュータは計算機とも呼ばれるもので,人間に代わって様々な計算をしてくれる便利な機械です.コンピュータは,一般に演算装置と記憶装置からなります.コンピュータは,プログラムを与えると演算装置と記憶装置でそれを実行し様々な計算をします.与えるプログラムを変えると,コンピュータはそれに応じた異なった処理を実行することができます.<このため>,コンピュータは様々な処理をできて便利なのです.
このように、強調表示した「このため」の前方に理由が書いてあることがすぐにわかり,便利である。
固有表現とは、人名、地名、組織名などの固有名詞、金額などの数値表現といった、特定の事物・数量を意味する言語表現のことである。固有表現抽出とは、そういった固有表現を文章中から計算機で自動で抽出する技術である。例えば、「日本の首相は小泉純一郎である」という文に対して固有表現抽出を行なうと、固有表現の「日本」と「小泉純一郎」が地名、人名として、抽出されるものである。
固有表現を抽出するには、前に説明した形態素解析システム ChaSen を用いることができる。例えば、「日本の首都は東京です」を形態素解析システム ChaSen に入力すると、出力として、次のものが得られる。
日本 ニッポン 日本 名詞−固有名詞−地域−国
の ノ の 助詞−連体化
首都 シュト 首都 名詞−一般
は ハ は 助詞−係助詞
東京 トウキョウ 東京 名詞−固有名詞−地域−一般
です デス です 助動詞特殊・デス基本形
EOS
これだと名詞−固有名詞−地域という品詞が出力されるので、このシステムを使って地名の固有表現を取り出すことができる。
村山 ムラヤマ 村山 名詞−固有名詞−人名−姓
首相 シュショウ 首相 名詞−一般
が ガ が 助詞−格助詞−一般
言っ イッ 言う 動詞−自立五段・ワ行促音便連用タ接続
た タ た 助動詞特殊・タ基本形
EOS
これだと名詞−固有名詞−人名という品詞が出力される。このシステムを使って人名の固有表現を取り出すことができる。
形態素解析を用いる場合の他に、人手でルールを作って固有表現を取り出すという方法もある。
名詞+「さん」だと人名とする
名詞+「首相」だと人名とする
名詞+「町」だと地名とする
名詞+「市」だと地名とする
(ユーザ依存型固有表現抽出表示システムの説明)
一部のコーパス(言語資源、例えば、新聞の電子データ)で固有表現をユーザがタグづけし、他のデータでそれら固有表現を自動抽出する技術である。
<LOCATION></LOCATION >:分類先=地名、
<ORGANIZATION></ORGANIZATION >:分類先=組織名、
<ARTIFACT></ARTIFACT >:分類先=固有物名、
<DATE></DATE >:分類先=日付表現、
<TIME></TIME >:分類先=時間表現、
<MONEY ></MONEY>:分類先=金額表現、
<PERCENT ></PERCENT>:分類先=割合表現、…。
<KATAKANA></KATAKANA >:分類先=カタカナ、
<ALPHABETIC></ALPHABETIC >:分類先=英字、
<NUMERIC ></NUMERIC>:分類先=数字。
「…<LOCATION>日本</LOCATION >の首相は<PERSON>小泉</PERSON >さんです。小泉さんはいつも思いきったことをしています。…」
さらに、ユーザによって、指定項目で分類先を付与する作業を行い教師データとして使用する範囲が指定されると、タグ付与手段は、タグ付与画面で指定された範囲に対応するテキストデータの文字列の前後に範囲指定タグの開始タグおよび終了タグを付加する。例えば、ユーザが、マウスドラッグにより文「日本の首相は小泉さんです。」を範囲として指定したとする。タグ付与手段は、指定された範囲に対応するテキストデータの文字列の前後に範囲指定タグを挿入する。範囲指定タグが付与されたテキストデータは以下のようになる。
「…<UC><LOCATION>日本</LOCATION >の首相は<PERSON>小泉</PERSON >さんです。</UC >小泉さんはいつも思いきったことをしています。…」
一方、ユーザが、分類先を付与した後、教師データとして使用する範囲を指定しなかった場合には、タグ付与手段は、指定項目で分類先が付与された箇所を含む所定の箇所をユーザが選択した範囲とみなし、その範囲の前後に範囲指定タグを付加する。例えば、タグ付与手段は、テキストデータ中の分類タグが付与された文字列に単語の前後に連なる所定の文字数や単語数などの範囲を、ユーザが選択した範囲とみなし、みなした範囲の前後に範囲指定タグを付加する。
表示装置(表示手段)1、入力装置(入力手段)2、抽出手段(抽出装置)3、疑問詞後接語抽出装置(疑問詞後接語抽出手段)4、主要語抽出装置(主要語抽出手段)5等は、プログラムで構成でき、主制御部(CPU)が実行するものであり、主記憶に格納されているものである。このプログラムは、一般的な、コンピュータで処理されるものである。このコンピュータは、主制御部、主記憶、ファイル装置、表示装置、キーボード等の入力手段である入力装置などのハードウェアで構成されている。
2 入力装置(入力手段)
3 抽出手段(抽出装置)
4 疑問詞後接語抽出装置(疑問詞後接語抽出手段)
5 主要語抽出装置(主要語抽出手段)
Claims (8)
- 質問とその回答の記事のセットを入力する入力手段と、
前記質問の文から疑問詞に後接する名詞又は疑問詞に後接する接尾辞を取り出す疑問詞後接語抽出手段と、
前記回答の記事において取り出した前記疑問詞に後接していた名詞又は接尾辞を強調表示する表示手段とを備えることを特徴としたキーワード強調装置。 - 質問とその回答の記事のセットを入力する入力手段と、
前記質問の文から疑問詞に後接する数字と結合できる所定の名詞又は疑問詞に後接する数字と結合できる所定の接尾辞を取り出す疑問詞後接語抽出手段と、
前記回答の記事において数字と前記取り出した所定の名詞又は所定の接尾辞のうち少なくとも一つを強調表示する表示手段とを備えることを特徴としたキーワード強調装置。 - 質問とその回答の記事のセットを入力する入力手段と、
前記質問の文から所定の数量表現を指す疑問詞があることを確認する抽出手段と、
前記回答の記事において数字を強調表示する表示手段とを備えることを特徴としたキーワード強調装置。 - 質問とその回答の記事のセットを入力する入力手段と、
前記質問の文から予め指定した疑問詞の種類を特定する抽出手段と、
前記回答の記事において前記疑問詞の種類に対応する固有表現を抽出して強調表示する表示手段とを備えることを特徴としたキーワード強調装置。 - 質問とその回答の記事のセットを入力する入力手段と、
前記質問の文から予め指定した理由を指す疑問詞を特定する抽出手段と、
前記回答の記事において前記理由を示す所定の単語を強調表示する表示手段とを備えることを特徴としたキーワード強調装置。 - 前記質問の文から主要語を取り出す主要語抽出手段を備え、
前記表示手段で、前記回答の記事において前記取り出した主要語を強調表示することを特徴とした請求項1〜5のいずれかに記載のキーワード強調装置。 - 前記表示手段で強調表示する主要語と他の強調表示では、異なる強調表示を行うことを特徴とした請求項6記載のキーワード強調装置。
- 質問とその回答の記事のセットを入力する入力手段と、
前記質問の文から疑問詞に後接する名詞又は疑問詞に後接する接尾辞を取り出す疑問詞後接語抽出手段と、
前記回答の記事において取り出した前記疑問詞に後接していた名詞又は接尾辞を強調表示する表示手段として、
コンピュータを機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006028325A JP4831737B2 (ja) | 2006-02-06 | 2006-02-06 | キーワード強調装置及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006028325A JP4831737B2 (ja) | 2006-02-06 | 2006-02-06 | キーワード強調装置及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2007207161A true JP2007207161A (ja) | 2007-08-16 |
JP4831737B2 JP4831737B2 (ja) | 2011-12-07 |
Family
ID=38486545
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006028325A Expired - Fee Related JP4831737B2 (ja) | 2006-02-06 | 2006-02-06 | キーワード強調装置及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4831737B2 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014020833A1 (ja) * | 2012-07-30 | 2014-02-06 | 日本電気株式会社 | 不具合発生原因抽出装置、不具合発生原因抽出方法および不具合発生原因抽出プログラム |
JP2016161993A (ja) * | 2015-02-26 | 2016-09-05 | 富士通株式会社 | 議論支援プログラム、議論支援方法および議論支援装置 |
JP2018504728A (ja) * | 2015-11-24 | 2018-02-15 | 小米科技有限責任公司Xiaomi Inc. | テンプレート構築方法及び装置、情報認識方法及び装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06332945A (ja) * | 1993-05-19 | 1994-12-02 | Canon Inc | 自然言語処理装置及び方法 |
JP2004280176A (ja) * | 2003-03-12 | 2004-10-07 | National Institute Of Information & Communication Technology | キーワード強調装置及びプログラム |
-
2006
- 2006-02-06 JP JP2006028325A patent/JP4831737B2/ja not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06332945A (ja) * | 1993-05-19 | 1994-12-02 | Canon Inc | 自然言語処理装置及び方法 |
JP2004280176A (ja) * | 2003-03-12 | 2004-10-07 | National Institute Of Information & Communication Technology | キーワード強調装置及びプログラム |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014020833A1 (ja) * | 2012-07-30 | 2014-02-06 | 日本電気株式会社 | 不具合発生原因抽出装置、不具合発生原因抽出方法および不具合発生原因抽出プログラム |
JPWO2014020833A1 (ja) * | 2012-07-30 | 2016-07-21 | 日本電気株式会社 | 不具合発生原因抽出装置、不具合発生原因抽出方法および不具合発生原因抽出プログラム |
JP2016161993A (ja) * | 2015-02-26 | 2016-09-05 | 富士通株式会社 | 議論支援プログラム、議論支援方法および議論支援装置 |
JP2018504728A (ja) * | 2015-11-24 | 2018-02-15 | 小米科技有限責任公司Xiaomi Inc. | テンプレート構築方法及び装置、情報認識方法及び装置 |
US10061762B2 (en) | 2015-11-24 | 2018-08-28 | Xiaomi Inc. | Method and device for identifying information, and computer-readable storage medium |
Also Published As
Publication number | Publication date |
---|---|
JP4831737B2 (ja) | 2011-12-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11551567B2 (en) | System and method for providing an interactive visual learning environment for creation, presentation, sharing, organizing and analysis of knowledge on subject matter | |
Buckwalter et al. | A frequency dictionary of Arabic: Core vocabulary for learners | |
US20180366013A1 (en) | System and method for providing an interactive visual learning environment for creation, presentation, sharing, organizing and analysis of knowledge on subject matter | |
Bowker | Off the record and on the fly: Examining the impact of corpora on terminographic practice in the context of translation | |
JP4347226B2 (ja) | 情報抽出プログラムおよびその記録媒体、情報抽出装置ならびに情報抽出規則作成方法 | |
JP2008287517A (ja) | 強調表示装置及びプログラム | |
Bowen et al. | Exploring revisions in academic text: Closing the gap between process and product approaches in digital writing | |
Eika et al. | Authoring WCAG2. 0-compliant texts for the web through text readability visualization | |
JP3899414B2 (ja) | 教師データ作成装置およびプログラム、ならびに言語解析処理装置およびプログラム | |
JP2013250925A (ja) | 回答タイプ推定装置、方法、及びプログラム | |
JP4831737B2 (ja) | キーワード強調装置及びプログラム | |
Aroonmanakun et al. | Thai National Corpus: a progress report | |
Lin et al. | ‘Same, same but different’: representations of Chinese mainland and Hong Kong people in the press in post-1997 Hong Kong | |
Hussain et al. | Usability evaluation of english, local and plain languages to enhance on-screen text readability: A use case of Pakistan | |
JP2007323238A (ja) | 強調表示装置及びプログラム | |
He | Subject in Chinese existential constructions: A systemic functional approach | |
Chen | Reconstructing classical Chinese fables through modern adaptations: a functional comparative study | |
Liginlal et al. | Metaphorical expressions in e-commerce: A study of arabic language websites | |
Davoodi et al. | A context-aware approach for the identification of complex words in natural language texts | |
Spitzmüller | Schematizing information: the macrotypographic framing of text | |
Wang et al. | What is your Mother Tongue?: Improving Chinese native language identification by cleaning noisy data and adopting BM25 | |
KR101995315B1 (ko) | 검색을 통한 폰트 제시 시스템 및 방법 | |
Din et al. | Corpus-based study of identifying verb patterns used in Pakistani newspaper headlines | |
Griebel et al. | Multimodal approaches to media discourses: Reconstructing the age of austerity in the United Kingdom | |
JP2008171164A (ja) | 分類付与支援装置及び方法及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20081215 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110408 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110412 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110609 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110628 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110825 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110913 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110916 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140930 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |