JP6996190B2 - 複合語生成装置、プログラム及び複合語生成方法 - Google Patents

複合語生成装置、プログラム及び複合語生成方法 Download PDF

Info

Publication number
JP6996190B2
JP6996190B2 JP2017184445A JP2017184445A JP6996190B2 JP 6996190 B2 JP6996190 B2 JP 6996190B2 JP 2017184445 A JP2017184445 A JP 2017184445A JP 2017184445 A JP2017184445 A JP 2017184445A JP 6996190 B2 JP6996190 B2 JP 6996190B2
Authority
JP
Japan
Prior art keywords
word
compound word
compound
score
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017184445A
Other languages
English (en)
Other versions
JP2019061409A (ja
Inventor
侑吾 西川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dai Nippon Printing Co Ltd
Original Assignee
Dai Nippon Printing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dai Nippon Printing Co Ltd filed Critical Dai Nippon Printing Co Ltd
Priority to JP2017184445A priority Critical patent/JP6996190B2/ja
Publication of JP2019061409A publication Critical patent/JP2019061409A/ja
Application granted granted Critical
Publication of JP6996190B2 publication Critical patent/JP6996190B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Description

本発明は、複合語生成装置、プログラム及び複合語生成方法に関する。
従来、世の中には、流行を表した言葉等の様々な新語が出現している。新語は、ニュースや流行した事柄を言い表す言葉であることが多く、また、簡単に言い表すため、複合語であることが多い。
新語は、例えば、マーケティングに用いることができ、いち早く新語を活用することで言葉の創造による市場形成に寄与し得る。そのため、新語を生成することが行われている(例えば、特許文献1)。
特開2004-318480号公報
特許文献1に記載のものは、文章データから新語である可能性の高い連結形態素を、新語候補として抽出する新語抽出方法であり、語順に大きく依存するものであった。
そこで、本発明は、語順の影響を受けず、新語の候補になり得る複合語を生成することが可能な複合語生成装置、プログラム及び複合語生成方法を提供することを目的とする。
本発明は、以下のような解決手段により、前記課題を解決する。
第1の発明は、文章を受け付ける文章受付手段と、前記文章受付手段が受け付けた文章から文節を取得する文節取得手段と、前記文節取得手段により取得した文節のうち、係り受け関係を有する文節より2つを選択し、名詞化して結合することで複合語を生成する複合語生成手段と、を備える複合語生成装置である。
第2の発明は、第1の発明の複合語生成装置において、前記複合語生成手段は、生成した前記複合語に対してさらに係り受け関係を有する文節を名詞化して結合することで複合語を生成すること、を特徴とする複合語生成装置である。
第3の発明は、第1の発明又は第2の発明の複合語生成装置において、既知語と前記既知語に対する説明文とを対応付けた既知語データベースを参照し、前記複合語のうちの少なくとも一部と同一構成の既知語を有するか否かを判断する既知語判定手段と、前記既知語判定手段により既知語を有すると判定された場合に、前記既知語に基づいて前記複合語を言い換える言換手段と、を備えること、を特徴とする複合語生成装置である。
第4の発明は、第1の発明から第3の発明までのいずれかの複合語生成装置において、前記複合語生成手段により生成した複合語に対して、重要度合いに応じたスコアを付与するスコア付与手段を備えること、を特徴とする複合語生成装置である。
第5の発明は、第4の発明の複合語生成装置において、前記文章受付手段が受け付けた前記文章を分析して人の行動を表す語である行動語を抽出する行動語抽出手段を備え、前記スコア付与手段は、前記行動語抽出手段により抽出した前記行動語を含む前記複合語に対して所定のスコアを付与すること、を特徴とする複合語生成装置である。
第6の発明は、第4の発明又は第5の発明の複合語生成装置において、前記スコア付与手段は、既知語と前記既知語に対する説明文とを対応付けた既知語データベースを参照し、前記既知語と同一構造の前記複合語に対して、類似度に応じたスコアを付与すること、を特徴とする複合語生成装置である。
第7の発明は、第4の発明から第6の発明までのいずれかの複合語生成装置において、前記スコア付与手段は、複数の文章に対して前記複合語生成手段により生成された複合語の頻度を、前記複合語ごとに集計し、集計した前記頻度に基づいてスコアを付与すること、を特徴とする複合語生成装置である。
第8の発明は、第4の発明から第7の発明までのいずれかの複合語生成装置において、前記スコア付与手段により付与されたスコアに基づいて、前記スコアに対応する前記複合語を出力する複合語出力手段を備えること、を特徴とする複合語生成装置である。
第9の発明は、第1の発明から第8の発明までのいずれかの複合語生成装置において、複数の文章に対して前記複合語生成手段により生成された複合語の頻度を、前記複合語ごとに集計し、集計した前記頻度が閾値以上の前記複合語を出力する複合語出力手段を備えること、を特徴とする複合語生成装置である。
第10の発明は、第1の発明から第9の発明までのいずれかの複合語生成装置としてコンピュータを機能させるためのプログラムである。
第11の発明は、文章から複合語を生成する方法であって、文章受付手段が、文章を受け付けるステップと、文節取得手段が、前記文章受付手段が受け付けた文章から文節を取得するステップと、複合語生成手段が、前記文節取得手段により取得した文節のうち、係り受け関係を有する文節より2つを選択し、名詞化して結合することで複合語を生成するステップと、を含む複合語生成方法である。
本発明によれば、語順の影響を受けず、新語の候補になり得る複合語を生成することが可能な複合語生成装置、プログラム及び複合語生成方法を提供することができる。
本実施形態に係る複合語生成装置の機能ブロックを示す図である。 本実施形態に係る複合語生成装置の既知語DBの例を示す図である。 本実施形態に係る複合語生成装置での複合語生成処理を示すフローチャートである。 本実施形態に係る複合語生成処理を説明するための図である。 本実施形態に係る複合語生成処理を説明するための図である。 本実施形態に係る複合語生成処理を説明するための図である。 本実施形態に係る複合語生成処理を説明するための図である。 本実施形態に係る複合語生成装置での具体例を示す図である。 本実施形態に係る複合語生成装置での具体例を示す図である。
以下、本発明を実施するための形態について、図を参照しながら説明する。なお、これは、あくまでも一例であって、本発明の技術的範囲は、これに限られるものではない。
(実施形態)
<複合語生成装置1>
図1は、本実施形態に係る複合語生成装置1の機能ブロックを示す図である。
図2は、本実施形態に係る複合語生成装置1の既知語DB22の例を示す図である。
図1に示す複合語生成装置1は、対象にする文章を受け付けて、文章から新語の候補になり得る複合語を、係り受け関係に基づいて生成する装置である。
複合語生成装置1は、例えば、サーバである。複合語生成装置1は、パーソナルコンピュータ(PC)等であってもよい。
複合語生成装置1は、制御部10と、記憶部20と、表示部27と、入力部28と、通信インタフェース部29とを備える。
制御部10は、複合語生成装置1の全体を制御するCPU(中央処理装置)である。制御部10は、記憶部20に記憶されているOS(オペレーティングシステム)や、各種のアプリケーションプログラムを適宜読み出して実行することにより、上述したハードウェアと協働し、各種機能を実行する。
制御部10は、文章受付部11(文章受付手段)と、文節取得部12(文節取得手段)と、複合語生成部13(複合語生成手段)と、既知語判定部14(既知語判定手段)と、変換処理部15(言換手段)と、行動語抽出部16(行動語抽出手段)と、スコア付与部17(スコア付与手段)と、複合語出力部18(複合語出力手段)とを備える。
文章受付部11は、処理の対象にする文章を受け付ける制御部である。文章受付部11は、例えば、入力部28から入力された文章を受け付ける。また、文章受付部11は、通信インタフェース部29を介して他の外部装置から文章を受け付けてもよい。
ここで、処理の対象になる文章は、SNS(Social Networking Service)等に投稿され、多数の人が閲覧した文章や、ニュースに関する文章が好ましい。新語の候補になり得る複合語は、世の中の話題を反映したものが多いからである。また、新語の候補になり得る複合語は、人の行動に関するものが多いことにもよる。そして、処理の対象になる文章は、ここでは、句点や改行等で区切られた1つの文であるものとする。
文節取得部12は、文章受付部11が受け付けた文章から文節を取得する。文節取得部12は、文章に対して構文解析を行って、文節を取得する。文節として、例えば、主辞、機能語等を取得する。主辞は、文章の主要語である。機能語は、前置詞、接続詞、助動詞、冠詞、代名詞等の文法的役割を持ち語彙的意味をもたない語である。
複合語生成部13は、取得した文節のうち、係り受け関係を有する文節より2つを選択し、名詞化して結合することで複合語を生成する。具体的には、複合語生成部13は、係り元主辞と、係り先主辞と、係り元機能語との関係を用いて、複合語を生成する。
また、複合語生成部13は、生成した複合語に対してさらに係り受け関係を有する文節を名詞化して結合することで複合語を生成する。この複合語生成部13によって生成された複合語は、新語の候補になり得るものである。
既知語判定部14は、生成した複合語と同一構成の既知語を有するかを、既知語DB(データベース)22を参照して判定する。
変換処理部15は、既知語判定部14により生成した複合語と同一構成の既知語を有すると判定された場合に、既知語に基づいて複合語を言い換える。また、変換処理部15は、人の行動を表す複合語において、人を表す語を入れ替える。
行動語抽出部16は、文章受付部11が受け付けた文章を分析して、人の行動を表す語である行動語を抽出する。
スコア付与部17は、複合語に対してスコア付けをする。具体的には、スコア付与部17は、既知語DB22に記憶された既知語と同一の構文構造の複合語に対して、類似度合いに応じたスコアを付与する。また、スコア付与部17は、行動語を含む複合語に対して、所定のスコアを付与する。
複合語出力部18は、生成した複合語を出力する。複合語出力部18は、例えば、スコア付与部17により付与されたスコアの高い複合語を出力してもよいし、複合語とスコアとを対応付けて出力してもよい。
なお、これらの各機能の詳細については、後述する。
記憶部20は、複合語生成装置1の動作に必要なプログラム、データ等を記憶するためのハードディスク、半導体メモリ素子等の記憶装置である。
なお、コンピュータとは、制御部、記憶装置等を備えた情報処理装置をいい、複合語生成装置1は、制御部10、記憶部20等を備えた情報処理装置であり、コンピュータの概念に含まれる。
記憶部20は、プログラム記憶部21と、既知語DB22と、複合語記憶部23とを備える。
プログラム記憶部21は、プログラムを記憶するための記憶領域である。プログラム記憶部21は、複合語生成プログラム21aを記憶している。
複合語生成プログラム21aは、制御部10の各種機能を実行するためのプログラムである。
既知語DB22は、既知語を記憶したデータベースである。
図2に示すように、既知語DBは、既知語と、その説明文とを対応付けて記憶する。既知語は、辞書に掲載されている言葉や、既に新語になっている言葉である。既知語DB22は、例えば、一般的な国語辞典等を使用したものであってもよい。既知語DB22は、あくまで一般的に知れ渡っている語を既知語として登録したものであることが望ましい。
複合語記憶部23は、生成した複合語を記憶する記憶領域である。
表示部27は、例えば、LCD(Liquid Crystal Display)等の表示装置である。
入力部28は、例えば、キーボードやマウス等の入力装置である。
通信インタフェース部29は、通信ネットワークを介して外部装置との通信を行うためのインタフェースである。
なお、複合語生成装置1を構成するハードウェアの数に制限はない。必要に応じて、1又は複数で構成してもよい。また、複合語生成装置1のハードウェアは、必要に応じてWebサーバ、DBサーバ、アプリケーションサーバ等の各種サーバを含んで構成してもよく、1台のサーバで構成しても、それぞれ別のサーバで構成してもよい。
<複合語生成処理>
次に、複合語生成装置1で行う処理について説明する。
図3は、本実施形態に係る複合語生成装置1での複合語生成処理を示すフローチャートである。
図4から図7までは、本実施形態に係る複合語生成処理を説明するための図である。
図3のステップS(以下、単に「S」という。)10において、複合語生成装置1の制御部10(文章受付部11)は、処理の対象にする文章を受け付ける。
S11において、制御部10(文節取得部12)は、受け付けた文章に対して構文解析を行って、文節を取得する。
S12において、制御部10(複合語生成部13)は、文節の係り受け関係に基づいて複合語を生成する。そして、制御部10は、生成した複合語を、複合語記憶部23に記憶させる。また、制御部10(複合語生成部13)は、生成した複合語を使用し、係り受け関係に基づいて更なる複合語を生成する。このように、制御部10(複合語生成部13)は、係り受け関係に基づく複合語の生成を、再帰的に繰り返して行う。
以上に説明した複合語を生成する具体例を、図4に基づき説明する。
ここでは、例えば、SNSによって発信されたあるユーザの文章である1つの文章40を例に説明する。
まず、制御部10は、文章40を構文解析して、文節にする(図3のS11参照)。文章関係図41は、文章40の係り受けを含む関係を示した図である。ここで、文節41aである「前」は、主辞である。また、文節41bである「出勤」は、主辞兼機能語であり、文節41cである「に」は、機能語である。ここで、同じ枠線で囲われた文節は、同じ種類に属するものであり、例えば、文節41aと同じ枠線の「ランニング」と、「し」は、主辞である。
次に、制御部10は、文章関係図41に示す各文節の係り受け関係に基づいて、複合語を生成する(図3のS12参照)。複合語テーブル42は、生成した複合語に関するものである。複合語テーブル42に示すように、制御部10は、係り元主辞と、係り元機能語と、係り先主辞とに基づいて、新語の候補になる複合語を生成している。
その際、制御部10は、選択した2つの文節を名詞化して結合する。
一例として、制御部10は、名詞+「する」の場合に、名詞を抽出して結合する。図4に示す例において、「出勤する」と、「前」とを結合する場合には、「出勤する」から「出勤」を抽出した上で「前」と結合させ、「出勤前」にする。また、「検索する」と「システム」とを結合する場合には、同様の処理によって「検索システム」にする。
他の例として、制御部10は、動詞及び形容詞の場合に、連用形にして結合する。例えば、「美しい」と「ゼリー」とを結合する場合には、「美しい」の連用形である「美し」にして結合させるため、「美しゼリー」になる。また、「皮も」と「食べる」とを結合する場合には、「皮食べ」になる。
そして、制御部10は、生成した複合語を用いてさらに複合語を生成する。複合語テーブル43は、複合語テーブル42の複合語に対してさらに生成したものを示す。
このように、構文解析をしたうえで、構文構造に沿った複合語を生成した場合には、文節の数に応じて新語の候補になる複合語が生成される。よって、例えば、8語が順に係っている文章の場合には、2の8乗-(8+1)である247語の候補が生成されることになる。なお、2の8乗から除いているものは、複合語ではないものの数である。
図3のS13において、制御部10(既知語判定部14)は、既知語DB22を参照し、生成した複合語の各々について、各複合語と同一の構成の既知語を有するか否かを判定する。これは、1つには、既知語が説明文の省略形であろうと仮定し、処理対象になる文章と同じような文章が説明文にあった場合に、同じような省略をしていいのでは、というルールを学習データから学ばせて複合語生成に役立てるための処理である。
複合語と同一の構成の既知語を有する場合(S13:YES)には、制御部10は、処理をS14に移す。他方、複合語と同一の構成の既知語を有さない場合(S13:NO)には、制御部10は、処理をS15に移す。
S14において、制御部10(変換処理部15)は、複合語と同一の構成の既知語を有する場合に、複合語を、既知語に基づいて言い換える。そして、制御部10は、言い換え後の複合語を、複合語記憶部23に記憶させる。
既知語による言い換えの具体例を、図5に基づき説明する。
文章50は、ある文章を構文解析して得られた一部の文章である。文章50は、文節50a~50cにより構成され、係り受け関係が矢印で示されている。
複合語テーブル51は、文章50から、係り受け関係を有する文節を結合して生成した複合語と、係り受けを対応付けたテーブルである。
ここで、図2に示す既知語DB22には、「就職活動」、「就活」、「婚前」という既知語がある。そして、生成した複合語である「結婚活動」と、「就職活動」及び「就活」とは、同一の構成を有する。よって、「結婚活動」は、「結婚活」に言い換えることができる。
また、「結婚活」は、既知語「婚前」に基づいて、「結婚」を「婚」に言い換えることができる。よって、「結婚活」は、「婚活」に言い換えることができ、結果として、複合語「結婚活動」は、「婚活」という複合語52に言い換えることができる。
なお、例えば、既知語に「結婚」を「結」に言い換えているものがあった場合、制御部10は、「結」と「婚」との省略数に基づいて、数の多い方に言い換えを行ってもよい。
図3のS15において、制御部10(行動語抽出部16)は、文章受付部11が受け付けた文章を分析して、人の行動を表す語である行動語を抽出する。例えば、図4に示す文章40の場合、「ランニングする」が行動語であり、「ランニングする」という行動をする主体は、記載されていない。この場合には、筆者が主体であると認定する。
図6に、行動語を抽出する例を示す。
例60は、上述した例のように、主体となる語がない文章の例である。この場合、SNS等の文章の特徴から、行動主体は、筆者であると認定する。また、人の行動を表す語として、「食べる」や「探す」といった行動語を抽出する。
例61は、主体となる語を含む文章の例である。例えば、「駅で歌っているおじさんがいる」という文章では、「おじさん」が主体であり、行動語は、「歌ってる」と、「いる」の2語である。
図3のS16において、制御部10(変換処理部15)は、行動語の係り受け関係を用いて、人を表す語を入れ替えた複合語を生成する。そして、制御部10は、生成した複合語を、複合語記憶部23に記憶させる。
図7は、行動語の係り受け関係を用いた複合語生成の例を示す。
まず、処理の対象になる文章70を構文解析して、文章関係図71を生成する。ここで、「買い物」である行動語71aは、人の行動を示す語である。
そして、複合語生成部13は、文節の係り受け関係に基づいて、複合語の1つとして「骨董店買い物」からなる複合語72を生成する。また、複合語生成部13は、「女の子」と「骨董店買い物」からなる「女の子骨董店買い物」からなる複合語73を生成する。
ここで、行動語71aを含む「女の子骨董店買い物」の行動主体は、「女の子」という語である。よって、変換処理部15は、「女の子骨董店買い物」に対して「女の子」という語が末尾になるように入れ替えた「骨董店買い物女の子」からなる複合語74を生成する。なお、変換処理部15は、生成した複合語74を、さらに既知語DB22に基づいて、「女の子」を「女子」に言い換えた「骨董店買い物女子」という複合語75を生成することができる。
図3のS17において、制御部10(スコア付与部17)は、生成した各複合語に対してスコア付けをする。
ここでは、スコア付けとして、2つの視点に基づいてスコアを付与する。
1つめは、既知語との関係によるものである。スコア付与部17は、生成した複合語の構成する語とその構文構造と同一のパターンが既知語DB22に既知語としてある場合に、スコアを、例えば、既知語との類似度合いに応じて付与する。既知語に近い複合語であれば、スコア付与部17は、高いスコアを付与する。また、スコア付与部17は、既知語に基づいて複合語を生成した場合の根拠になる既知語の候補数に応じて、スコアを付与してもよい。
2つめは、文章内での重要語であるか否かによるものである。ここで、スコア付与部17は、人の行動を示す行動語を重要語と認定し、例えば、所定のスコアを付与する。ここで、スコア付与部17は、人と行動とを含む複合語である場合に、より高いスコアを付与する。行動を示す動詞と、人との組合せを重要な語としてとらえ、それを含んだ複合語のスコアを高くすることで、複合語生成装置1において、人や社会の行動を表す複合語のスコアを高めることができる。
なお、複合語を用いてさらに生成された複合語の場合には、付与するスコアは、加算ではなく、平均値にすることが望ましい。加算すると、複数の複合語を含む文字数の多い複合語のスコアが高くなってしまうからである。
S18において、制御部10(複合語出力部18)は、生成した複合語と、スコアとを対応付けて、新語候補として表示部27に出力する。その後、制御部10は、本処理を終了する。
次に、複合語生成装置1が上述の複合語生成処理を実行した場合の具体例を説明する。
図8及び図9は、本実施形態に係る複合語生成装置1での具体例を示す図である。
図8は、ユーザにより1つの文章が入力された場合に、その文章から複合語を生成する場合の例である。
図8(A)は、表示部27に表示された入力画面80の例である。
新語候補になる複合語を生成しようとする場合に、ユーザは、文章入力欄80aに文章を入力し、ボタン80bを選択する。そうすることで、複合語生成装置1の制御部10は、複合語生成処理を実行し、複合語を生成する。
図8(B)は、図8(A)で入力された文章から生成された複合語一覧81の例である。ここで、複合語として最初に生成されるのは、「小学生プログラミング」であるが、行動語「プログラミング」の主体が「小学生」のため、制御部10は、人の表現を末尾に結合した「プログラミング小学生」を生成する(レコード81a参照)。レコード81b及び81cも同様に人を末尾になるように入れ替えたものである。なお、この例では、連結単語数として、連結した文節の数をあわせて示している。
そして、制御部10(複合語出力部18)は、複合語一覧81を、表示部27に出力する。なお、制御部10(複合語出力部18)は、複合語一覧81のうち、高スコアの複合語を選択して表示部27に出力してもよいし、スコアは表示させずに複合語のみを新語候補として表示部27に出力してもよい。
図9は、ユーザがキーワードを入力することにより検索結果として出力されたキーワードを含む複数の文章から複合語を生成する場合の例である。
図9(A)は、表示部27に表示された入力画面90の例である。
ユーザは、キーワード入力欄90aにキーワードを入力し、ボタン90bを選択する。そうすることで、SNS等に投稿されたキーワードを含む文章が、検索結果として検索結果欄90cに出力される。このキーワード検索による文章の取得は、例えば、複合語生成プログラム21aとは異なる他のプログラム(図示せず)によって実行される。
そして、ユーザは、検索結果の文章から複合語を生成する場合に、ボタン90dを選択する。そうすることで、複合語生成装置1の制御部10は、複合語生成処理を実行し、各文章から複合語を生成する。
図9(B)は、図9(A)の検索結果欄90cに表示された文章から生成された複合語一覧91の例である。複合語一覧91には、複合語とスコアの他、頻度が示されている。頻度は、検索結果欄90cの複数の文章中に、その複合語の元になる文節を含む数である。この頻度が高いものは、例えば、複数のユーザが投稿した文章から生成された複合語であるため、その複合語は、より人気のあるものであると考えられる。制御部10(複合語出力部18)は、頻度やスコアを含む複合語一覧91を表示部27に出力することができる。なお、制御部10(複合語出力部18)は、頻度順に全ての複合語を出力してもよいし、閾値以上の頻度を有する複合語を出力してもよい。
このように、本実施形態によれば、複合語生成装置1は、以下のような効果がある。
(1)文章から文節を取得し、係り受け関係に基づいて文節を名詞化した上で結合して複合語を生成する。よって、係り受け関係に基づいて複合語を生成するので、語順に依存せず、文章の書かれ方の影響が少なく、意味関係がある語同士での複合語の生成が可能になる。例えば、「自転車だと、健康にもいいし快適に通勤できる」という文章があった場合、先行文献の方法では、「自転車」と「通勤」の間に語が多いため「自転車通勤」という複合語が生成されない。しかし、本願発明では、「自転車」と「通勤」との間にある係り受けを利用するので、「自転車通勤」という複合語を生成できる。
また、文章の語を用いて複合語を生成するので、複合語は、各語が有する意味によって複数の意味(事象)がまとめられたものにできる。
(2)生成した複合語に対してさらに係り受け関係に基づいて文節を結合して複合語を生成するので、全てのパターンを網羅した複合語を生成できる。
(3)既知語DB22を参照して、既知語と同一の構成を有する複合語を、既知語に基づいて言い換えるので、生成される複合語は、既知語の構成を有するものにできる。よって、より新語の候補になりうる複合語を生成できる。
(4)生成した複合語に対して、重要度合いに応じたスコア付けをする。よって、文章中の文節の数に比例して多くの複合語が生成されるが、多くの複合語が生成されても、重要な複合語であるか否かを、スコアによって判断でき、重要な複合語を簡単に判別できる。
(5)複合語が人の行動を表す行動語を含む場合にスコアを付与するので、人の行動に関係する複合語を、重要度合いが高いとしてスコア付けをすることができる。また、人の行動に関係する複合語の場合に、人を表す語を末尾に入れ替えることができ、より新語にふさわしい語順にできる。
(6)既知語DB22に記憶されている既知語と同一の構文構造の複合語に対して、既知語との類似度に応じてスコアを付与するので、既知語に似ている複合語を、重要度合いが高いとしてスコア付けをすることができる。
(7)生成した複合語を、スコアに基づいて出力するので、スコアの高い複合語を、新語の候補として用いることができる。
(8)対象にする文章を、複数の投稿文章にし、生成した複合語を、その複合語の頻度を含めて出力するので、ユーザに対して流行により合致した複合語を生成できる。よって、例えば、注意喚起のキャッチフレーズ等になり得る複合語を生成できる。
以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限定されるものではない。また、実施形態に記載した効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、実施形態に記載したものに限定されない。なお、上述した実施形態及び後述する変形形態は、適宜組み合わせて用いることもできるが、詳細な説明は省略する。
(変形形態)
(1)本実施形態では、複合語生成装置が既知語DBを備えるものとして説明したが、これに限定されない。例えば、複合語生成装置に対して通信可能に接続されたサーバに既知語DBを有し、それを用いてもよい。
(2)本実施形態では、複合語生成装置が表示部及び入力部を備え、入力部から入力された文章から複合語を生成し、生成結果を表示部に表示させるものを例に説明したが、これに限定されない。例えば、複合語生成装置に対して通信可能に接続された端末から文章を入力し、生成結果を端末に送信するものであってもよい。
(3)本実施形態では、スコア付けを、2つの評価によって行うものを例に説明したが、これに限定されない。1つの評価によって行ってもよいし、他の評価を加えてもよい。また、付与するスコアも一例である。例えば、既知語の重要度を、既知語に対応付けて既知語DBに記憶させておき、重要度を用いてスコア付けをしてもよい。また、人の行動語を含む複合語について、一律にスコア付けをするのではなく、例えば、人の属性(性別、年代)等によって付与するスコアを変えてもよい。さらに、複合語の頻度に基づいてスコア付けをしてもよい。
(4)本実施形態では、既知語DBとして、既知の新語である省略語を例に説明したが、これに限定されない。例えば、「おばさん」を「魔女」に置き換えるような、ルールベースのものを含んでもよい。
1 複合語生成装置
10 制御部
11 文章受付部
12 文節取得部
13 複合語生成部
14 既知語判定部
15 変換処理部
16 行動語抽出部
17 スコア付与部
18 複合語出力部
20 記憶部
21a 複合語生成プログラム
22 既知語DB
27 表示部
28 入力部

Claims (9)

  1. 文章を受け付ける文章受付手段と、
    前記文章受付手段が受け付けた文章から文節を取得する文節取得手段と、
    前記文節取得手段により取得した文節のうち、係り受け関係を有する文節より2つを選択し、名詞化して結合することで複合語を生成する複合語生成手段と、
    既知語と前記既知語に対する説明文とを対応付けた既知語データベースを参照し、前記既知語と同一構造の前記複合語に対して、類似度に応じたスコアを付与するスコア付与手段と、
    を備える複合語生成装置。
  2. 請求項1に記載の複合語生成装置において、
    前記文章受付手段が受け付けた前記文章を分析して人の行動を表す語である行動語を抽出する行動語抽出手段を備え、
    前記スコア付与手段は、さらに前記行動語抽出手段により抽出した前記行動語を含む前記複合語に対して所定のスコアを付与すること、
    を特徴とする複合語生成装置。
  3. 請求項1又は請求項2に記載の複合語生成装置において、
    前記スコア付与手段は、さらに複数の文章に対して前記複合語生成手段により生成された複合語の頻度を、前記複合語ごとに集計し、集計した前記頻度に基づいてスコアを付与すること、
    を特徴とする複合語生成装置。
  4. 請求項1から請求項3までのいずれかに記載の複合語生成装置において、
    前記複合語生成手段は、生成した前記複合語に対してさらに係り受け関係を有する文節を名詞化して結合することで複合語を生成すること、
    を特徴とする複合語生成装置。
  5. 請求項1から請求項4までのいずれかに記載の複合語生成装置において、
    前記既知語データベースを参照し、前記複合語のうちの少なくとも一部と同一構成の既知語を有するか否かを判断する既知語判定手段と、
    前記既知語判定手段により既知語を有すると判定された場合に、前記既知語に基づいて前記複合語を言い換える言換手段と、
    を備えること、
    を特徴とする複合語生成装置。
  6. 請求項1から請求項5までのいずれかに記載の複合語生成装置において、
    前記スコア付与手段により付与されたスコアに基づいて、前記スコアに対応する前記複合語を出力する複合語出力手段を備えること、
    を特徴とする複合語生成装置。
  7. 請求項1から請求項6までのいずれかに記載の複合語生成装置において、
    複数の文章に対して前記複合語生成手段により生成された複合語の頻度を、前記複合語ごとに集計し、集計した前記頻度が閾値以上の前記複合語を出力する複合語出力手段を備えること、
    を特徴とする複合語生成装置。
  8. 請求項1から請求項7までのいずれかに記載の複合語生成装置としてコンピュータを機能させるためのプログラム。
  9. 文章から複合語を生成する方法であって、
    文章受付手段が、文章を受け付けるステップと、
    文節取得手段が、前記文章受付手段が受け付けた文章から文節を取得するステップと、
    複合語生成手段が、前記文節取得手段により取得した文節のうち、係り受け関係を有する文節より2つを選択し、名詞化して結合することで複合語を生成するステップと、
    スコア付与手段が、既知語と前記既知語に対する説明文とを対応付けた既知語データベースを参照し、前記既知語と同一構造の前記複合語に対して、類似度に応じたスコアを付与するステップと、
    を含む複合語生成方法。
JP2017184445A 2017-09-26 2017-09-26 複合語生成装置、プログラム及び複合語生成方法 Active JP6996190B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017184445A JP6996190B2 (ja) 2017-09-26 2017-09-26 複合語生成装置、プログラム及び複合語生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017184445A JP6996190B2 (ja) 2017-09-26 2017-09-26 複合語生成装置、プログラム及び複合語生成方法

Publications (2)

Publication Number Publication Date
JP2019061409A JP2019061409A (ja) 2019-04-18
JP6996190B2 true JP6996190B2 (ja) 2022-01-17

Family

ID=66178594

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017184445A Active JP6996190B2 (ja) 2017-09-26 2017-09-26 複合語生成装置、プログラム及び複合語生成方法

Country Status (1)

Country Link
JP (1) JP6996190B2 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006309347A (ja) 2005-04-26 2006-11-09 Saga Univ 対象文書からキーワードを抽出する方法、システムおよびプログラム
JP2016031607A (ja) 2014-07-28 2016-03-07 株式会社 学研ホールディングス 百科事典閲覧サーバ装置、百科事典閲覧方法及びプログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006309347A (ja) 2005-04-26 2006-11-09 Saga Univ 対象文書からキーワードを抽出する方法、システムおよびプログラム
JP2016031607A (ja) 2014-07-28 2016-03-07 株式会社 学研ホールディングス 百科事典閲覧サーバ装置、百科事典閲覧方法及びプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李 泰憲 TaeHun LEE,複合語生成規則を用いたキーワード導出手法 A Method of Deriving Keywords Using Generation Rules of Compound Words,電子情報通信学会論文誌 (J84-D-II) 第5号 THE TRANSACTIONS OF THE INSTITUTE OF ELECTRONICS,INFORMATION AND COMMUNICATION ENGINEERS D-II,日本,社団法人電子情報通信学会 THE INSTITUTE OF ELECTRONICS,INFORMATION AND COMMUNICATION ENGINEERS,2001年05月01日,第J84-D-II巻 第5号,812~821

Also Published As

Publication number Publication date
JP2019061409A (ja) 2019-04-18

Similar Documents

Publication Publication Date Title
Srinivasa-Desikan Natural Language Processing and Computational Linguistics: A practical guide to text analysis with Python, Gensim, spaCy, and Keras
US10579657B2 (en) Answering questions via a persona-based natural language processing (NLP) system
US11170181B2 (en) Document preparation with argumentation support from a deep question answering system
US9721008B1 (en) Recipe generation utilizing natural language processing
JP6676109B2 (ja) 発話文生成装置とその方法とプログラム
JP4347226B2 (ja) 情報抽出プログラムおよびその記録媒体、情報抽出装置ならびに情報抽出規則作成方法
Ahmad et al. Tools and techniques for lexicon driven sentiment analysis: a review
JP2013025648A (ja) 対話装置、対話方法および対話プログラム
Selamat et al. Word-length algorithm for language identification of under-resourced languages
Vanetik et al. An unsupervised constrained optimization approach to compressive summarization
JP2021022211A (ja) 問合せ対応支援装置、問合せ対応支援方法、プログラム及び記録媒体
Tuarob et al. A product feature inference model for mining implicit customer preferences within large scale social media networks
JP2014219872A (ja) 発話選択装置、方法、及びプログラム、対話装置及び方法
Xu et al. RIP emojis and words to contextualize mourning on Twitter
CN111046168B (zh) 用于生成专利概述信息的方法、装置、电子设备和介质
Xie et al. Lexicon construction: A topic model approach
Patil et al. Inflectional and derivational hybrid stemmer for sentiment analysis: a case study with Marathi tweets
JP6996190B2 (ja) 複合語生成装置、プログラム及び複合語生成方法
Jung et al. A corpus-based approach to classifying emotions using Korean linguistic features
JP2021512384A (ja) 社会的感情および自然言語生成の量子重ね合せおよび量子もつれ
JP2016103156A (ja) テキスト特徴量抽出装置、テキスト特徴量抽出方法、およびプログラム
JP2014191484A (ja) 文末表現変換装置、方法、及びプログラム
JP5697164B2 (ja) 対象文から直接的に導出できないカテゴリのタグを付与するタグ付けプログラム、装置、方法及びサーバ
Zouaoui et al. Ontological Approach Based on Multi-Agent System for Indexing and Filtering Arabic Docu-ments
CN112445959A (zh) 检索方法、检索装置、计算机可读介质及电子设备

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200728

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210616

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210706

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210817

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20211116

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20211129

R150 Certificate of patent or registration of utility model

Ref document number: 6996190

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150