JP5337575B2 - 候補語抽出装置、候補語抽出方法及び候補語抽出プログラム - Google Patents
候補語抽出装置、候補語抽出方法及び候補語抽出プログラム Download PDFInfo
- Publication number
- JP5337575B2 JP5337575B2 JP2009115798A JP2009115798A JP5337575B2 JP 5337575 B2 JP5337575 B2 JP 5337575B2 JP 2009115798 A JP2009115798 A JP 2009115798A JP 2009115798 A JP2009115798 A JP 2009115798A JP 5337575 B2 JP5337575 B2 JP 5337575B2
- Authority
- JP
- Japan
- Prior art keywords
- node
- word
- input
- dictionary data
- candidate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 79
- 238000013500 data storage Methods 0.000 claims abstract description 55
- 239000000284 extract Substances 0.000 claims description 20
- 238000004458 analytical method Methods 0.000 description 42
- 238000000034 method Methods 0.000 description 41
- 230000008707 rearrangement Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 8
- 241001672694 Citrus reticulata Species 0.000 description 6
- 230000001174 ascending effect Effects 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 4
- 238000007726 management method Methods 0.000 description 4
- 239000002245 particle Substances 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 150000001875 compounds Chemical class 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
Images
Description
図1は、本実施形態による候補語抽出システム1の構成を示すブロック図である。候補語抽出システム1は、ユーザから入力される入力語に応じた候補語を抽出して表示するコンピュータ装置であり、辞書ソースデータ入力部101と、ノード情報生成部102と、ノード処理部104と、中間ファイル生成部105と、中間ファイル記憶部106と、辞書データ生成部107と、辞書データ記憶部108と、入力部109と、候補語抽出部110と、表示部111とを備えており、構文解析装置103に接続される。
辞書ソースデータ入力部101は、辞書データを生成するために構文解析を行なう基の文である辞書ソースデータの入力を受付ける。辞書ソースデータ入力部101に入力される辞書ソースデータとしては、予め生成された複数の文による文章が含まれる文章ファイルを読み込むようにしても良いし、候補語抽出装置100が備える入力部109にユーザから入力された文章を辞書ソースデータとしても良い。
これにより、例えば、候補語を出現頻度の降順に表示したり、特定の品詞の入力語に後続する場合は特定の品詞の候補語を上位に表示したり、特定の関係種別の候補語を上位に表示したりすることが可能である。
表示部111は、候補語抽出部110が抽出した候補語を表示する表示部である。
また、辞書データ生成部107は、読み出した中間情報に含まれる辞書ノード1のノード情報の読みを示す読み1(「かんり」)と、出現頻度(「1」)と、関係種別(「単体」)と、品詞1(「名詞」)とをノードとして図8(2)の読み辞書データにおけるリンクポインタが[a1]であるノードとして辞書データ記憶部108に書き込む。
辞書データ生成部107によって、綴り辞書データに記憶させるノードと、読み辞書データに記憶させるノードとに、リンクポインタ([a1])が付与されることによって、これらノードの相互の関係性が表される。
同様に、入力部109に確定文字「ID」が入力された場合には、図8(1)に示した綴り辞書データから、文字列「ID」と一致する文字列「ID」に対応付けられた[c1]のノードを読み出す。ここでいう確定文字とは、入力された文字の変換が完了した文字であり、入力された文字の変換を行わない状態で確定した文字も含む。また、候補語抽出部110は、当該ノードに対応付けられた[c2]のノード「をまとめて」及び[d2]のノード「やパスワード」を抽出し、表示部111に表示する。ここでは、「ID」が確定文字であるので、その「ID」の後ろに続いて入力される可能性がある文字列が候補語として表示される。
この際、候補語抽出部110は、予め定められた並び順に基づいて、候補語を出力する。ここでは、例えば、候補語抽出部110は関係種別に応じた並び順により、候補語を出力する。
この場合、図8に示した例のように、入力語「ID」について、関係種別が「親子」である候補語「やまとめて」と、関係種別が「兄弟」である候補語「やパスワード」とが抽出され、関係種別の降順に並び替えることを示す並び替え設定が記憶されている場合、候補語抽出部110は、関係種別が「兄弟」である候補語を優先して、「やパスワード」、「やまとめて」の順に候補語を表示させる。第1ソートキー及び第2ソートキーに従ってソートすることが指定されている場合には、第1ソートキーでソートを行った後、第2ソートキーでソートを行う。第1ソートキーとして「頻度」が指定されている場合には、第1ソートキーのみでソートを行う。
候補語抽出部110が、このように属性毎に候補語を並び替えて出力することで、例えば兄弟関係にある候補語を上位に表示させつつ、親子関係にある候補語をも選択肢として提示することが可能となる。
また、本実施形態における各機能部は、ソフトウェアプログラムが実行されることによって論理的に実現されるが、これらの機能を、例えばASIC(Application Specific Integrated Circuit:特定用途向け集積回路)などの物理的な構成によって実現しても良い。
100 候補語抽出装置
101 辞書ソースデータ入力部
102 ノード情報生成部
103 構文解析装置
104 ノード処理部
105 中間ファイル生成部
106 中間ファイル記憶部
107 辞書データ生成部
108 辞書データ記憶部
109 入力部
110 候補語抽出部
111 表示部
Claims (4)
- 定められた入力語と、当該入力語に後続する候補語とが対応付けられて記憶される辞書データ記憶部を備えた候補語抽出装置であって、
入力される文に含まれる複数の語の係り受け関係に基づいて、係る語を子ノード、受ける語を親ノードとする親子関係が解析され、前記文字列に含まれる各語をノードとした前記親子関係が構文木によって表されたノード情報を生成するノード情報生成部と、
前記ノード情報に含まれる前記ノードのうち、前記子ノードを前記入力語とし、当該子ノードに対応する前記親ノードを前記候補語として対応付けて前記辞書データ記憶部に記憶させる親子ノード辞書データ生成部と、
前記ノード情報に含まれる前記ノードのうち、同一の親ノードに対応する子ノードの組み合わせを抽出し、抽出した子ノードの一方を前記入力語とし、他方を前記候補語として対応付けて前記辞書データ記憶部に記憶させる兄弟ノード辞書データ生成部と、
ユーザから入力された入力語に対応する前記候補語を前記辞書データ記憶部から抽出し、表示部に表示させる候補語抽出部と、
を備え、
前記辞書データ記憶部には、入力語に対して親子関係にあるか、兄弟関係にあるかを示す関係種別情報が記憶され、
前記候補語抽出部は、ユーザから入力された入力語に対応する複数の前記候補語を抽出すると、抽出した候補語に対応する前記関係種別情報に基づいて、抽出した複数の前記候補語を定められた順に並べて前記表示部に表示させる
ことを特徴とする候補語抽出装置。 - 前記兄弟ノード辞書データ生成部は、前記ノード情報に含まれる前記ノードのうち、同一の親ノードに対応する子ノードの組み合わせを抽出し、抽出した子ノードのうち前記辞書データの基である文において前方に現れる語に対応するノードを兄ノードとし、前記抽出した子ノードのうち前記兄ノードの直後に現れるノードを弟ノードとして、当該弟ノードを親ノードとする子ノードが存在しない場合に、前記兄ノードを前記入力語とし、前記弟ノードを前記候補語として対応付けて前記辞書データ記憶部に記憶させる
ことを特徴とする請求項1記載の候補語抽出装置。 - 定められた入力語と、当該入力語に後続する候補語とが対応付けられて記憶される辞書データ記憶部を備えた候補語抽出装置の候補語抽出方法であって、
入力される文に含まれる複数の語の係り受け関係に基づいて、係る語を子ノード、受ける語を親ノードとする親子関係が解析され、前記文字列に含まれる各語をノードとした前記親子関係が構文木によって表されたノード情報を生成するステップと、
前記ノード情報に含まれる前記ノードのうち、前記子ノードを前記入力語とし、当該子ノードに対応する前記親ノードを前記候補語として対応付けて前記辞書データ記憶部に記憶させるステップと、
前記ノード情報に含まれる前記ノードのうち、同一の親ノードに対応する子ノードの組み合わせを抽出し、抽出した子ノードの一方を前記入力語とし、他方を前記候補語として対応付けて前記辞書データ記憶部に記憶させるステップと、
ユーザから入力された入力語に対応する前記候補語を前記辞書データ記憶部から抽出し、表示部に表示させるステップと、
を備え、
前記子ノードに対応する前記親ノードを前記候補語として対応付けて前記辞書データ記憶部に記憶させるステップおよび前記子ノードの一方を前記入力語とし、他方を前記候補語として対応付けて前記辞書データ記憶部に記憶させるステップにおいて、入力語に対して親子関係にあるか、兄弟関係にあるかを示す関係種別情報を前記辞書データ記憶部に記憶させ、
前記表示させるステップにおいて、ユーザから入力された入力語に対応する複数の前記候補語を抽出すると、抽出した候補語に対応する前記関係種別情報に基づいて、抽出した複数の前記候補語を定められた順に並べて前記表示部に表示させる
ことを特徴とする候補語抽出方法。 - 定められた入力語と、当該入力語に後続する候補語とが対応付けられて記憶される辞書データ記憶部を備えた候補語抽出装置のコンピュータに、
入力される文に含まれる複数の語の係り受け関係に基づいて、係る語を子ノード、受ける語を親ノードとする親子関係が解析され、前記文字列に含まれる各語をノードとした前記親子関係が構文木によって表されたノード情報を生成するステップと、
前記ノード情報に含まれる前記ノードのうち、前記子ノードを前記入力語とし、当該子ノードに対応する前記親ノードを前記候補語として対応付けて前記辞書データ記憶部に記憶させるステップと、
前記ノード情報に含まれる前記ノードのうち、同一の親ノードに対応する子ノードの組み合わせを抽出し、抽出した子ノードの一方を前記入力語とし、他方を前記候補語として対応付けて前記辞書データ記憶部に記憶させるステップと、
ユーザから入力された入力語に対応する前記候補語を前記辞書データ記憶部から抽出し、表示部に表示させるステップと、
を実行させる候補語抽出プログラムであって、前記コンピュータに、
前記子ノードに対応する前記親ノードを前記候補語として対応付けて前記辞書データ記憶部に記憶させるステップおよび前記子ノードの一方を前記入力語とし、他方を前記候補語として対応付けて前記辞書データ記憶部に記憶させるステップにおいて、入力語に対して親子関係にあるか、兄弟関係にあるかを示す関係種別情報を前記辞書データ記憶部に記憶させ、
前記表示させるステップにおいて、ユーザから入力された入力語に対応する複数の前記候補語を抽出すると、抽出した候補語に対応する前記関係種別情報に基づいて、抽出した複数の前記候補語を定められた順に並べて前記表示部に表示させる
ことを特徴とする候補語抽出プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009115798A JP5337575B2 (ja) | 2009-05-12 | 2009-05-12 | 候補語抽出装置、候補語抽出方法及び候補語抽出プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009115798A JP5337575B2 (ja) | 2009-05-12 | 2009-05-12 | 候補語抽出装置、候補語抽出方法及び候補語抽出プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010266947A JP2010266947A (ja) | 2010-11-25 |
JP5337575B2 true JP5337575B2 (ja) | 2013-11-06 |
Family
ID=43363896
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009115798A Active JP5337575B2 (ja) | 2009-05-12 | 2009-05-12 | 候補語抽出装置、候補語抽出方法及び候補語抽出プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5337575B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113609296B (zh) * | 2021-08-23 | 2022-09-06 | 南京擎盾信息科技有限公司 | 用于舆情数据识别的数据处理方法和装置 |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04139580A (ja) * | 1990-09-29 | 1992-05-13 | Fujitsu Ltd | 見出し語探索システム |
JPH0683809A (ja) * | 1992-08-31 | 1994-03-25 | Fuji Xerox Co Ltd | 文書処理装置 |
JP3304665B2 (ja) * | 1995-02-17 | 2002-07-22 | 松下電器産業株式会社 | 音声認識装置 |
JPH09114817A (ja) * | 1995-10-13 | 1997-05-02 | Matsushita Electric Ind Co Ltd | 文字入力装置 |
JPH09153040A (ja) * | 1995-11-30 | 1997-06-10 | Toshiba Corp | 文字列予測方法、及び文字列予測装置 |
JPH09274613A (ja) * | 1996-04-04 | 1997-10-21 | Toshiba Corp | 文字列予測方法及びこの文字列予測方法を用いた文書作成装置 |
JP2000285111A (ja) * | 1999-03-30 | 2000-10-13 | Sanyo Electric Co Ltd | 文書作成方法及びマンマシンインターフェース方法 |
JP2001282778A (ja) * | 2000-03-29 | 2001-10-12 | Sony Corp | 情報処理装置および方法、並びに記録媒体 |
JP4105841B2 (ja) * | 2000-07-11 | 2008-06-25 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 音声認識方法、音声認識装置、コンピュータ・システムおよび記憶媒体 |
JP3933952B2 (ja) * | 2002-02-07 | 2007-06-20 | 三菱電機株式会社 | 文字列入力装置及び文字列入力方法 |
JP2007334534A (ja) * | 2006-06-14 | 2007-12-27 | Ntt Data Corp | 文字列入力装置、文字列入力方法、および、プログラム |
JP2008112220A (ja) * | 2006-10-27 | 2008-05-15 | Kyocera Corp | 予測変換候補を用いる文字入力装置および文字入力方法 |
-
2009
- 2009-05-12 JP JP2009115798A patent/JP5337575B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2010266947A (ja) | 2010-11-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Carley et al. | AutoMap User's Guide 2013 | |
JP6285943B2 (ja) | 文字列変換の帰納的合成のための順位付け | |
US20220357839A1 (en) | Machine display operation systems and methods | |
US8484238B2 (en) | Automatically generating regular expressions for relaxed matching of text patterns | |
US7519903B2 (en) | Converting a structured document using a hash value, and generating a new text element for a tree structure | |
US10049098B2 (en) | Extracting actionable information from emails | |
JP5512489B2 (ja) | ファイル管理装置及びファイル管理方法 | |
US10423649B2 (en) | Natural question generation from query data using natural language processing system | |
GB2401972A (en) | Identifying special word usage in a document | |
JP2007334534A (ja) | 文字列入力装置、文字列入力方法、および、プログラム | |
CN114398138A (zh) | 界面生成方法、装置、计算机设备和存储介质 | |
JP2009128949A (ja) | グラフ表示装置およびプログラム | |
US20070174306A1 (en) | Data extraction and conversion methods and apparatuses | |
JP5337575B2 (ja) | 候補語抽出装置、候補語抽出方法及び候補語抽出プログラム | |
JP2020098596A (ja) | ウェブページから情報を抽出する方法、装置及び記憶媒体 | |
JP4845523B2 (ja) | 文字処理装置、方法、プログラムおよび記録媒体 | |
JP7122773B2 (ja) | 辞書構築装置、辞書の生産方法、およびプログラム | |
JPWO2011004524A1 (ja) | テキストマイニング装置 | |
JP5851130B2 (ja) | 日本語のための音声キー | |
KR100921563B1 (ko) | 의존 문법 구문 트리를 이용한 문장 요약 방법 | |
JP2019121164A (ja) | 文書作成装置、文書作成方法、データベース構築装置、データベース構築方法、およびプログラム | |
Bramer | Web Programming with PHP and MySQL | |
JP4937709B2 (ja) | 構造化文書生成方法及び装置及びプログラム | |
JP7247593B2 (ja) | 生成装置、ソフトウェアロボットシステム、生成方法及び生成プログラム | |
JP3465615B2 (ja) | 検索方法ならびに装置及び同方法がプログラムされ記録された記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20111215 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130226 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130424 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20130424 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130619 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130709 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130805 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5337575 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313117 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |