JP7095322B2

JP7095322B2 - 判定プログラム、判定装置、及び判定方法

Info

Publication number: JP7095322B2
Application number: JP2018045399A
Authority: JP
Inventors: 忠延古川; 宏弥稲越
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2018-03-13
Filing date: 2018-03-13
Publication date: 2022-07-05
Anticipated expiration: 2038-03-13
Also published as: JP2019159780A

Description

開示の技術は、判定プログラム、判定装置、及び判定方法に関する。

従来、俳句の適切な季語の候補を提示するサーバが知られている。このサーバは、発句として指定された俳句を解析して季語、自立語、切れ字を抽出し、これらの抽出した語句を利用して、季語データベースから、付け句の制約を満たし、かつ、発句の内容に対応する季語を選択する。そして、このサーバは、選択した季語を推薦季語としてユーザに提示する。

特開２０１３－８４２０５号公報

俳句又は川柳には、取り合わせが含まれる場合がある。取り合わせとは、例えば、一つの俳句又は川柳の中で二つの事象が詠まれることをいう。

一つの側面では、開示の技術は、俳句又は川柳を表す文章において、取り合わせを判定することが目的である。

開示の技術は、一つの実施態様では、俳句又は川柳を表す文章を複数の単語へ分解する。そして、自然文の集合から予め生成された単語の意味を表すベクトルを参照し、前記文章から分解された複数の前記単語の各々に対応する前記ベクトルの各々を取得する。そして、前記文章に含まれる第１の単語に対応する前記ベクトルと、前記文章に含まれる第２の単語に対応する前記ベクトルとの間の関係と、前記第１の単語と前記第２の単語との間の前記文章における位置関係とに基づいて前記文章における取り合わせを判定する。

一つの側面として、俳句又は川柳を表す文章において、取り合わせを判定することができる、という効果を有する。

俳句内の単語のベクトル化を説明するための説明図である。実施形態に係る判定装置の概略ブロック図である。コーパスの一例を示す図である。分散表現リストＢの一例を示す図である。類義語関係リストＹの一例を示す図である。単語リストＴの一例を示す図である。単語の隔たり数と切れとの関係を説明するための説明図である。学習用俳句リストＨ１の一例を示す図である。評価用俳句リストＨ２の一例を示す図である。季語リストＫの一例を示す図である。隔たり数を説明するための図である。実施形態に係る判定装置として機能するコンピュータの概略構成を示すブロック図である。実施形態における設定処理の一例を示すフローチャートである。実施形態における上限閾値計算処理の一例を示すフローチャートである。実施形態における下限閾値計算処理の一例を示すフローチャートである。実施形態における隔たり閾値計算処理の一例を示すフローチャートである。実施形態における判定処理の一例を示すフローチャートである。

以下、図面を参照して開示の技術の実施形態の一例を詳細に説明する。

本実施形態では、俳句内における取り合わせの有無を判定する。取り合わせとは、良い俳句を作る技法の一つであり、一つの俳句の中に直接関連のない複数の事象が盛り込まれている状態をいう。例えば、一つの句の中で二つの事象が詠まれることをいい、一方の事象には主として季語が用いられ、他方の事象には季語と直接関係の無い事象が用いられることが多い。取り合わせが俳句に含まれることにより、複合的な内容が俳句に盛り込まれ、俳句に新鮮さを持たせることができる。

具体的には、大小関係及び対義語関係のような、意味的に距離のある事象が組み合わせされて、取り合わせとなる。例えば、「雨」と「傘」とのように直接連想されるものではなく、関係のない二つの事象が俳句内で用いられることにより、新鮮な印象を読者へ与える。なお、二つの事象は全く関係がないわけではなく、つかず離れずの関係である。以下の（１）～（２）に、取り合わせが含まれる俳句の例を示す。

（１）「閑さや岩にしみ入る蝉の声[1]」／松尾芭蕉
（２）「木枯らしや目刺しに残る海の色[2]」／芥川龍之介

上記（１）の松尾芭蕉の俳句では、閑さ（静かさ）と蝉（騒がしさ）とが対比され、俳句に新鮮さが含まれている。また、同様に、上記（２）の芥川龍之介の俳句では、木枯らし（乾燥）と海（生き生きとした雰囲気）とが対比されている。

上述したように、取り合わせは、意味の異なる二つの事象が俳句に含まれることをいうため、俳句内に含まれる各事象を表す２つの単語間の意味的な距離を算出することで、取り合わせの有無を判定することが考えられる。例えば、二つの単語間の意味的な距離を算出する際に、単語の分散表現を表すベクトルを用いることが考えられる。例えば、図１に示されるように、上記（１）の俳句に含まれる各単語をベクトル化する。図１に示される例では、単語「閑さ」がベクトル［0.41,0.12,0.61,...,0.01］で表現され、単語「岩」がベクトル［0.12,0.22,0.80,...,0.21］で表現され、単語「しみ入る」がベクトル［0.31,0.35,0.56,...,0.08］で表現される。また、単語「蝉」がベクトル［0.07,0.62,0.17,...,0.32］で表現され、単語「声」がベクトル［0.17,0.32,0.37,...,0.44］で表現される。これにより、単語がベクトルとして表現されるため、単語間の意味的な距離を算出することができる。

なお、単語の意味を解析する際にはトピックモデルを用いることが考えられる。しかし、トピックモデルにおけるトピックは複数の単語から形成されるという点に注目しており、季語を含む単語の意味や、単語の配置を考慮する必要がある俳句の意味解析に用いることは適していない。

そこで、本実施形態では、単語の分散表現を用いて、俳句内の単語の意味的な距離を計算する。そして、本実施形態では、単語間の意味的な距離に応じて、俳句内における取り合わせの有無を判定する。また、俳句内の単語の配置を考慮して俳句内における取り合わせの有無を判定する。これにより、俳句の評価に対する支援を行うことができる。

以下、図面を参照して開示の技術の実施形態である判定装置１０を詳細に説明する。判定装置１０は、俳句内における取り合わせの有無を判定するための閾値等を設定する設定フェーズと、設定フェーズで設定された各閾値に応じて、俳句内における取り合わせの有無を判定する取り合わせ判定フェーズとが存在する。以下具体的に説明する。

図２に、判定装置１０の構成例を表す概略図を示す。図２に示すように、本実施形態の判定装置１０は、コーパス記憶部１２、分散表現作成部１４、分散表現リスト記憶部１６、及び類義語関係リスト記憶部１８を備えている。また、判定装置１０は、閾値上限計算部２０、単語リスト記憶部２２、閾値下限計算部２４、学習用俳句リスト記憶部２６、隔たり閾値計算部２８、閾値記憶部２９、及び評価用俳句リスト記憶部３０を備えている。また、判定装置１０は、季語リスト記憶部３２、候補語抽出部３４、単語品詞リスト記憶部３６、クラスタリング部３８、隔たり数関係リスト記憶部４０、判定部４２、及び取り合わせ俳句リスト記憶部４４を備えている。候補語抽出部３４は、開示の技術の特定部の一例である。

［設定フェーズ］
設定フェーズでは、俳句内における取り合わせの有無を判定するための閾値が設定される。

コーパス記憶部１２には、自然文の集合であるコーパスが格納されている。図３に、コーパスの一例を示す。図３に示される例では、自然文「永遠（えいえん、とわ）とは、物事の変化を認識するための概念である時間に対し、...」と自然文「また、時間が有限であるのに対し、永遠であるということは無限であるということでもある。」とを含むコーパスが示されている。コーパス記憶部１２に格納されたコーパスに基づき、単語の分散表現を表すベクトルが学習される。

単語の分散表現を表すベクトルを得る際には、俳句データから単語のベクトルを学習することが考えられる。しかし、俳句データから単語のベクトルを学習させてしまうと、「つかず離れず」の関係を表現することができない。俳句以外の文章においては「つかず離れず」の関係にあるはずの取り合わせの単語のペアが、俳句データから分散表現を学習させてしまうと、お互いに類似度の高いベクトルとして学習されてしまう。これにより、俳句内での意味の離れ度合いを測れなくなってしまう。

そこで、本実施形態では、分散表現を表す単語のベクトルを学習させる際には、自然文の集合を表すコーパス（例えば、Wikipedia（登録商標）の文書データ等）に基づいて、ベクトルを学習させる。これにより、取り合わせの「つかず離れず」の関係を、単語のベクトルから判定可能となる。

分散表現作成部１４は、コーパス記憶部１２に格納されたコーパスから、単語の意味を表すベクトルを生成する。

具体的には、分散表現作成部１４は、コーパス記憶部１２に格納されたコーパスに基づいて、特定の単語が他の単語と一文中で共起しやすいか否かに応じて、単語の分散表現を表すベクトルを学習させる。これにより、一文中において共起しやすい単語のペアのベクトル間の類似度が高くなるように、各単語のベクトルが学習される。学習の結果得られた単語のベクトルを用いることにより、俳句中の各単語が意味的にどれだけ離れているかを算出することができる。例えば、分散表現作成部１４は、Skip-gramモデル（Tomas Mikolov, Ilya Sutskever, Kai Chen, Greg S Corrado, Jeff Dean:“Distributed representations of words and phrases and their compositionality”, Advances in Neural Information Processing Systems 26 (NIPS 2013), 2013）を用いて、各単語のベクトルを学習する。

分散表現リスト記憶部１６には、分散表現作成部１４によって生成された各単語のベクトルが格納される。具体的には、複数の単語の各々について、単語とベクトルとのペアが分散表現リストＢとして格納される。図４に、分散表現リストＢの一例を示す。例えば、図４に示されるように、単語「永遠」とベクトル［０．３，０．１，０．０，...］とが対応付けられている。また、単語「永久」とベクトル［０．８，０．０，０．３，...］とが対応付けられ、単語「言う」とベクトル［０．１，０．２，０．０，...］とが対応付けられている。

本実施形態では、分散表現リスト記憶部１６に格納された分散表現リストＢを参照して、俳句内の季語と意味的に離れた単語が含まれる俳句を、取り合わせを含む俳句の候補とする。そのため、本実施形態では、俳句内の単語間の類似度を用いて意味的な距離を測る。しかし、俳句に取り合わせが含まれているか否かを判定する際には、季語と対象となる単語とが「つかず離れず」の関係であるか否かを判定する必要がある。そのため、本実施形態では、この「つかず離れず」の関係が含まれているか否かを判定するための閾値を設定する。

例えば、「木枯らし」と「空っ風」とは類義語関係にある。そのため、例えば、「木枯らし」のベクトルと「空っ風」のベクトルとの間のコサイン類似度は０．４３であるとする。この場合には、単語間の類似度が高いため「つかず離れず」の関係に該当せず、取り合わせにはならない。

一方、例えば、「木枯らし」と「パソコン」とは関係性がほぼないと考えられる。そのため、例えば、「木枯らし」のベクトルと「パソコン」のベクトルとの間のコサイン類似度は０．０９であるとする。この場合には、単語間の類似度は低すぎるため「つかず離れず」の関係に該当せず、取り合わせにはならない。

一方、俳句「木枯らしや目刺しに残る海の色」内の単語である「木枯らし」と「海」とについては、「木枯らし」のベクトルと「海」のベクトルとの間のコサイン類似度は０．２７であるとする。この場合には、単語間の類似度が「つかず離れず」の関係に該当し、俳句内に取り合わせが含まれている。

そこで、本実施形態では、「つかず離れず」を判定するための閾値として、上限閾値と下限閾値とを設定する。そして、本実施形態では、俳句内の季語のベクトルと他の単語のベクトルとの間の類似度が、上限閾値以下であって、かつ下限閾値以上である場合に、取り合わせが含まれると判定する。

具体的には、本実施形態では、類義語関係にある単語のベクトル間のコサイン類似度の平均値から上限閾値を求める。また、本実施形態では、ランダムに選択した単語のベクトル間のコサイン類似度の平均値から下限閾値を求める。ただし、下限閾値を求める際には、類義語関係にある単語のベクトル間のコサイン類似度は除外する。

類義語関係リスト記憶部１８には、類義語関係にある単語のペアが格納された類義語関係リストＹが格納される。図５に、類義語関係リストＹの一例を示す。例えば、図５に示される例では、単語のペアとして、（永遠、永久）、（言う、話す）、（意外、案外）が類義語関係リストＹに格納される。

閾値上限計算部２０は、分散表現リスト記憶部１６に格納された分散表現リストＢと、類義語関係リスト記憶部１８に格納された類義語関係リストＹとを参照し、類義語関係にある単語間の類似度に応じて上限閾値を設定する。

具体的には、閾値上限計算部２０は、類義語関係にある単語間の類似度を格納するための類似度リストＳ_Ｕ＝［］を設定する。次に、閾値上限計算部２０は、類義語関係リストＹから類義語関係を一つ取り出し、類義語関係ｙとする。例えば、類義語関係リストＹ＝｛（言う、話す）、（意外、案外）、...｝から類義語関係ｙ＝（永遠、永久）を取り出す。閾値上限計算部２０は、分散表現リストＢを参照して、類義語関係ｙ中の単語のベクトル間のコサイン類似度を計算し、類似度リストＳ_Ｕへ追加する。例えば、類義語関係ｙ＝（永遠、永久）中の単語のベクトル間のコサイン類似度が０．４７である場合、類似度リストＳ_Ｕ＝［０．４７］となる。

閾値上限計算部２０は、類義語関係リストＹに格納された全ての類義語関係ｙ中の単語のベクトル間のコサイン類似度を計算し、類似度リストＳ_Ｕへ順次追加する。これにより、例えば、類似度リストＳ_Ｕ＝［０．４７，０．５１，０．４６，...］が生成される。

そして、閾値上限計算部２０は、類似度リストＳ_Ｕに格納された複数の類似度の平均値を計算し、上限閾値Θ_Ｕとする。これにより、例えば、Θ_Ｕ＝０．３が設定される。

単語リスト記憶部２２には、ランダムに選択された複数の単語が格納された単語リストＴが格納される。図６に、単語リストＴの一例を示す。例えば、図６に示される例では、永遠、言う、意外等が単語リストＴに格納される。

閾値下限計算部２４は、分散表現リスト記憶部１６に格納された分散表現リストＢと、単語リスト記憶部２２に格納された単語リストＴとを参照し、単語リストＴの単語のベクトル間の類似度に応じて下限閾値を設定する。

具体的には、閾値下限計算部２４は、ランダムに選択された単語間の類似度を格納するための類似度リストＳ_Ｌ＝［］を設定する。次に、閾値下限計算部２４は、単語リストＴからランダムに二つの単語を選択して単語ペア（ｔ１，ｔ２）を設定する。例えば、閾値下限計算部２４は、単語ペア（ｔ１，ｔ２）＝（永遠、言う）を設定する。そして、閾値下限計算部２４は、単語ペア（ｔ１，ｔ２）が類義語関係リストＹに含まれているか否かを判定する。

単語ペア（ｔ１，ｔ２）が類義語関係リストＹに含まれている場合、閾値下限計算部２４は、単語リストＴからランダムに二つの単語を選択して、異なる単語ペア（ｔ１，ｔ２）を再度設定する。

単語ペア（ｔ１，ｔ２）が類義語関係リストＹに含まれていない場合、閾値下限計算部２４は、分散表現リストＢを参照して、単語ペア（ｔ１，ｔ２）のベクトル間のコサイン類似度を計算し、類似度リストＳ_Ｌへ追加する。単語ｔ１と単語ｔ２との間の類似度が０．０１である場合には、類似度リストＳ_Ｌ＝［０．０１］となる。

そして、閾値下限計算部２４は、単語リストＴから得られる全ての単語のペアについて、類義語関係リストＹに含まれているか否かの判定と、類義語関係リストＹに含まれていない単語のペアについての、ベクトル間のコサイン類似度の計算を行う。閾値下限計算部２４は、類義語関係リストＹに含まれていない単語ペアについては、単語のペアのベクトル間のコサイン類似度を計算し、類似度リストＳ_Ｌへ順次追加する。これにより、例えば、類似度リストＳ_Ｌ＝［０．０１，０．１２，０．０５，...］が生成される。

そして、閾値下限計算部２４は、類似度リストＳ_Ｌに格納された複数の類似度の平均値を計算し、下限閾値Θ_Ｌとする。これにより、例えば、Θ_Ｌ＝０．１が設定される。

なお、俳句内に含まれる単語が、季語との間の意味関係が「つかず離れず」であったとしても、当該単語は取り合わせ目的には使われていない場合がある。例えば、季語と、季語と「つかず離れず」の意味を持つ単語とが結びついて、一つの名詞句を形成している場合がある。

例えば、以下に示す俳句（Ａ）及び俳句（Ｂ）は、何れも季語「木枯らし」と単語「海」とを含んでいるが、俳句（Ａ）は取り合わせが含まれる例である。一方、俳句（Ｂ）は、季語と、季語と「つかず離れず」の意味を持つ単語とが結びついて、一つの名詞句を形成している例である。

（Ａ）木枯らしや目刺しに残る海の色：「木枯らし」の乾燥と「海」の生き生きとした雰囲気の対比
（Ｂ）木枯らしの海へ鯛焼き泳がんと[3]：「木枯らしの海」で名詞句を形成

俳句（Ｂ）の場合、季語と「つかず離れず」の意味を持つ単語が季語との取り合わせを目的に用いられていないため、取り合わせを含む俳句であると判定されないように考慮する必要がある。

そこで、本実施形態では、取り合わせ目的には使われていない単語と、取り合わせ目的に使われている単語とを区別できるようにする。具体的には、本実施形態では、単語のベクトル間の類似度だけでなく、季語と単語との間の隔たり数を用いて、取り合わせが含まれているか否かを判定する。俳句内の単語の配置を考慮することで、取り合わせが含まれているか否かの判定の精度を高めることができる。

俳句における取り合わせでは、「切れ」（句点を入れられる箇所）の前後で話題を変え、異なる題材を取り合わせる場合が多い。例えば、図７に示されるように、上記（Ａ）の俳句「木枯らしや目刺しに残る海の色」は、「木枯らし」と「海」との間に切れが存在し、「木枯らし」と「海」との間の単語の隔たり数は５である。一方、上記（Ｂ）の俳句「木枯らしの海へ鯛焼き泳がんと」は、「木枯らし」と「海」との間には切れが存在せず、「木枯らし」と「海」との間の単語の隔たり数は２である。このように、季語と単語との間の単語数が多いほど、その間に切れが存在する可能性が高くなる。そのため、季語と単語との間の単語数を考慮して、取り合わせが含まれているか否かの判定を行うことにより、取り合わせの判定の精度を上げることができる。

そこで、本実施形態では、学習用の俳句内の「切れ」の前後における単語数に応じて、取り合わせが含まれているか否かを判定するための閾値を、単語の隔たり数に関する隔たり閾値として設定する。隔たり閾値は、例えば、切れの存在する学習用の俳句における切れの前後のうち、単語数の多い方における単語数の平均値により設定することができる。俳句内の季語と単語との間の単語数が、隔たり閾値よりも大きければ、季語と単語との間に切れが存在している確率が高い。そのため、季語と単語とが「つかず離れず」の関係にあり、かつ季語と単語との間の単語数が隔たり閾値よりも大きい場合には、当該俳句内に取り合わせが含まれていると判定することができる。

学習用俳句リスト記憶部２６には、学習用俳句リストＨ１が格納される。学習用俳句リストＨ１には、学習用の俳句が複数格納される。図８に、学習用俳句リストＨ１の一例を示す。例えば、図８に示される例では、「花の雲鐘は上野か浅草か[4]」「夏草や兵どもが夢の跡[5]」「北風や国語の教師くしゃみする[6]」が学習用俳句リストＨ１に格納される。

隔たり閾値計算部２８は、学習用俳句リスト記憶部２６の学習用俳句リストＨ１を参照して、学習用俳句リストＨ１に格納された切れを含む俳句うちの、切れの前の単語数及び切れの後の単語数の何れか多い方の単語数に応じて、隔たり閾値を設定する。

具体的には、隔たり閾値計算部２８は、単語数を格納するための単語数リストＮ＝［］を設定する。次に、隔たり閾値計算部２８は、学習用俳句リストＨ１から俳句を一つ取り出し、俳句ｈとする。例えば、上記図８に示される学習用俳句リストＨ１から、「花の雲鐘は上野か浅草か」が取り出され俳句ｈとして設定される場合を例に説明する。なお、上記図８に示される学習用俳句リストＨ１から、「花の雲鐘は上野か浅草か」が取り出された場合、学習用俳句リストＨ１＝｛夏草や兵どもが夢の跡、北風や国語の教師くしゃみする、...｝となる。

次に、隔たり閾値計算部２８は、俳句ｈに対して形態素解析を行い、俳句ｈに含まれる単語の読みと単語の品詞とが格納される読み品詞リストＰを得る。

例えば、隔たり閾値計算部２８は、俳句ｈ「花の雲鐘は上野か浅草か」に対して形態素解析を行い、読み品詞リストＰ＝｛はな（名詞）、の（助詞）、くも（名詞）、かね（名詞）、は（助詞）、うえの（名詞）、か（助詞）、あさくさ（名詞）、か（助詞）｝を得る。

次に、隔たり閾値計算部２８は、読み品詞リストＰを参照して、俳句ｈ内の切れの存在を確認する。具体的には、隔たり閾値計算部２８は、読み品詞リストＰを参照し、俳句の読みの和が５（上の句終わり）、又は１２（中の句終わり）となる箇所が、名詞又は「や」「かな」「けり」となっている場合に、俳句内の切れとして検出する。

なお、隔たり閾値計算部２８は、俳句内に切れの検出箇所が複数ある場合は、切れがないものとして扱う。例えば、隔たり閾値計算部２８は、俳句ｈ「花の雲鐘は上野か浅草か」の読み品詞リストＰから、「くも」と「かね」との間に切れが検出される。

そして、隔たり閾値計算部２８は、俳句内に切れが検出された場合、切れの前後の単語数のうち、多い方の単語数を単語数リストＮへ追加する。例えば、隔たり閾値計算部２８は、俳句ｈの読み品詞リストＰと切れの検出箇所とから、切れの前の単語数は３語（はな、の、くも）であることを検出し、切れの後の単語数は６語（かね、は、うえの、か、あさくさ、か）であることを検出する。そのため、俳句ｈ「花の雲鐘は上野か浅草か」について処理が終了した後には、単語数リストＮ＝［６］となる。

隔たり閾値計算部２８は、学習用俳句リストＨ１が空になるまで、学習用俳句リストＨ１から学習用の俳句ｈを取り出し、俳句ｈの切れの前後の単語数のうち、多い方の単語数を単語数リストＮへ追加する。

例えば、学習用俳句リストＨ１から「花の雲鐘は上野か浅草か」が処理された後、学習用俳句リストＨ１は｛夏草や兵どもが夢の跡、北風や国語の教師くしゃみする、...｝となる。そのため、隔たり閾値計算部２８は、学習用俳句リストＨ１から次の俳句ｈ「夏草や兵どもが夢の跡」を取り出す。このとき、学習用俳句リストＨ１は｛北風や国語の教師くしゃみする、...｝となる。

次に、隔たり閾値計算部２８は、俳句ｈ「夏草や兵どもが夢の跡」に対して形態素解析を行い、読み品詞リストＰ＝｛なつくさ（名詞）、や（助詞）、つわもの（名詞）、ども（名詞）、が（助詞）、ゆめ（名詞）、の（助詞）、あと（名詞）｝を得る。

次に、隔たり閾値計算部２８は、読み品詞リストＰを参照して、俳句ｈ内の切れの存在を確認する。具体的には、隔たり閾値計算部２８は、俳句ｈの読みの和が５の箇所が「や」であるため、「や」と「つわもの」との間を俳句内の切れとして検出する。そして、隔たり閾値計算部２８は、切れの前の単語数は２語（なつくさ、や）であることを検出し、切れの後の単語数は６語（つわもの、ども、が、ゆめ、の、あと）であることを検出する。そして、隔たり閾値計算部２８は、多い方の単語数６を単語数リストＮへ追加する。俳句ｈ「夏草や兵どもが夢の跡」について処理が終了した後には、単語数リストＮ＝［６，６］となる。

次に、隔たり閾値計算部２８は、学習用俳句リストＨ１から次の俳句ｈ「北風や国語の教師くしゃみする」を取り出す。このとき、学習用俳句リストＨ１は｛...｝となる。

次に、隔たり閾値計算部２８は、俳句ｈ「北風や国語の教師くしゃみする」に対して形態素解析を行い、読み品詞リストＰ＝｛きたかぜ（名詞）、や（助詞）、こくご（名詞）、の（助詞）、きょうし（名詞）、くしゃみ（名詞）、する（動詞）｝を得る。

次に、隔たり閾値計算部２８は、読み品詞リストＰを参照して、俳句ｈ内の切れの存在を確認する。具体的には、隔たり閾値計算部２８は、俳句ｈの読みの和が５の箇所が「や」であるため、「や」と「こくご」との間を俳句内の切れとして検出する。また、俳句ｈの読みの和が１２の箇所が「きょうし」であり名詞であるため、「きょうし」と「くしゃみ」との間を俳句内の切れとして検出する。このため、切れが複数検出されるため、隔たり閾値計算部２８は、俳句ｈ「北風や国語の教師くしゃみする」内には切れがないものとして扱う。したがって、俳句ｈ「北風や国語の教師くしゃみする」について処理が終了した後には、単語数リストＮは、Ｎ＝［６，６］のままである。

このように、隔たり閾値計算部２８は、学習用俳句リストＨ１が空になるまで、学習用俳句リストＨ１から学習用の俳句ｈを取り出し、俳句ｈの切れの前後の単語数のうち、多い方の単語数を単語数リストＮへ追加する。

そして、隔たり閾値計算部２８は、単語数リストＮに含まれる単語数の平均値を計算し、隔たり閾値Θ_ｄとする。例えば、隔たり閾値Θ_ｄ＝５と設定される。

閾値記憶部２９には、閾値上限計算部２０によって設定された上限閾値Θ_Ｕと、閾値下限計算部２４によって設定された下限閾値Θ_Ｌと、隔たり閾値計算部２８によって設定された隔たり閾値Θ_ｄとが格納される。本実施形態では、上限閾値Θ_Ｕが０．３であり、下限閾値Θ_Ｌが０．１であり、隔たり閾値Θ_ｄが５である場合を例に説明する。

［判定フェーズ］
判定フェーズでは、設定フェーズで設定された各閾値に応じて、俳句内における取り合わせの有無を判定する。具体的には、本実施形態では、俳句に含まれる季語に対応するベクトルと、俳句に含まれる、季語とは異なる単語に対応するベクトルとの間の関係と、季語と季語とは異なる単語との間の俳句における位置関係とに基づいて、俳句における取り合わせを判定する。なお、季語は、開示の技術の第１の単語の一例である。また、季語とは異なる単語は、開示の技術の第２の単語の一例である。

評価用俳句リスト記憶部３０には、評価用俳句リストＨ２が格納される。図９に、評価用俳句リストＨ２の一例を示す。例えば、図９に示される例では、評価用の俳句として、｛木枯らしの海へ鯛焼き泳がんと、木枯らしや目刺しに残る海の色、急激に林檎と地球引き合う日[7]、地球には裏表なし林檎剥く[8]｝が評価用俳句リストＨ２に格納される。また、評価用の俳句として、｛朝刊とナイフと林檎置かれあり[9]、木枯らしや初冬に吹きし空っ風[10]｝が評価用俳句リストＨ２に格納される。

季語リスト記憶部３２には、季語リストＫが格納される。季語リストＫには、複数の季語が格納されている。図１０に、季語リストＫの一例を示す。例えば、図１０に示される例では、季語として｛木枯らし、林檎、...｝が季語リストＫに格納される。

候補語抽出部３４は、評価用俳句リストＨ２から１つの俳句ｈを取得する。例えば、候補語抽出部３４は、上記図９に示される評価用俳句リストＨ２から、「木枯らしの海へ鯛焼き泳がんと」を俳句ｈとして取得する。この場合、評価用俳句リストＨ２からは「木枯らしの海へ鯛焼き泳がんと」が削除される。そのため、評価用俳句リストＨ２＝｛急激に林檎と地球引き合う日、地球には裏表なし林檎剥く、朝刊とナイフと林檎置かれあり、木枯らしや初冬に吹きし空っ風｝となる。

次に、候補語抽出部３４は、俳句ｈに対して形態素解析を行い、俳句ｈを複数の単語へ分割する。また、候補語抽出部３４は、評価用の俳句ｈから得られた各単語と各単語の品詞を単語品詞リストＷへ格納する。単語品詞リスト記憶部３６には、評価用の俳句ｈから得られた各単語と各単語の品詞が格納される単語品詞リストＷが格納される。

例えば、候補語抽出部３４は、俳句ｈ「木枯らしの海へ鯛焼き泳がんと」に対して形態素解析を行い、単語品詞リストＷ＝｛木枯らし（名詞）、の（助詞）、海（名詞）、に（助詞）、鯛焼き（名詞）、泳がん（動詞）、と（助詞）｝を得る。

次に、候補語抽出部３４は、季語リスト記憶部３２に格納された季語リストＫを参照し、単語品詞リストＷから季語ｋを抽出する。例えば、候補語抽出部３４は、単語品詞リストＷから季語ｋ＝｛木枯らし｝を抽出する。

次に、候補語抽出部３４は、単語品詞リストＷに格納されている、季語ｋとは異なる名詞の単語と、季語ｋとの間の類似度を算出する。

具体的には、候補語抽出部３４は、分散表現リストＢを参照し、俳句ｈから分解された複数の単語の各々に対応するベクトルの各々を取得する。そして、候補語抽出部３４は、俳句ｈに含まれる季語ｋに対応するベクトルと、季語ｋとは異なる名詞の単語に対応するベクトルとに基づいて、季語ｋとは異なる名詞の単語のうち、季語ｋと関連する取り合わせ候補語を特定する。

より詳細には、候補語抽出部３４は、俳句ｈに含まれる季語ｋに対応するベクトルと、季語ｋとは異なる名詞の単語に対応するベクトルとに基づいて、季語ｋとは異なる各単語のうちの名詞の単語と季語ｋとの間の類似度を算出する。そして、候補語抽出部３４は、算出した類似度の各々を類似度リストＳへ格納する。

例えば、候補語抽出部３４は、俳句ｈ「木枯らしの海へ鯛焼き泳がんと」の季語ｋ＝｛木枯らし｝と、季語ｋとは異なる各単語のうちの名詞の単語｛海、鯛焼き｝との間の類似度が格納された類似度リストＳ＝｛海：０．２７，鯛焼き：０．２３｝を取得する。

次に、候補語抽出部３４は、類似度リストＳを参照し、類似度リストＳに格納された類似度のうちの最も高い類似度ｓを特定する。そして、候補語抽出部３４は、類似度ｓに対応する単語を取り合わせ候補語ｗとして特定する。

例えば、候補語抽出部３４は、類似度リストＳ＝｛海：０．２７，鯛焼き：０．２３｝のうちの最も高い類似度ｓ＝０．２７を特定し、類似度ｓ＝０．２７に対応する単語「海」を取り合わせ候補語ｗとして特定する。

次に、候補語抽出部３４は、閾値記憶部２９に格納された各閾値を参照し、取り合わせ候補語ｗの類似度ｓが、上限閾値Θ_Ｕ以下であってかつ下限閾値Θ_Ｌ以上であるか否かを判定する。

候補語抽出部３４は、取り合わせ候補語ｗの類似度ｓが、上限閾値Θ_Ｕ以下であってかつ下限閾値Θ_Ｌ以上である場合には、隔たり閾値Θ_ｄを用いた判定処理に移行する。

一方、候補語抽出部３４は、取り合わせ候補語ｗの類似度ｓが、上限閾値Θ_Ｕより大きい場合、又は下限閾値Θ_Ｌ未満である場合には、俳句ｈ内には取り合わせが存在しないと判定する。

例えば、取り合わせ候補語ｗ＝「海」の類似度ｓが０．２７である場合、上限閾値Θ_Ｕ（＝０．３）以下であって、かつ下限閾値Θ_Ｌ（＝０．１）以上であるため、候補語抽出部３４は、クラスタリング部３８における隔たり閾値Θ_ｄを用いた判定処理に移行する。

クラスタリング部３８は、季語ｋと取り合わせ候補語ｗとの間の単語の隔たり数ｄを算出する。例えば、図１１に示されるように、俳句ｈ「木枯らしの海へ鯛焼き泳がんと」については、季語ｋ「木枯らし」と取り合わせ候補語ｗ「海」との間の隔たり数ｄは２となる。そして、クラスタリング部３８は、俳句ｈと隔たり数ｄとの組み合わせを、隔たり数関係リストＤに追加する。例えば、隔たり数関係リストＤ＝｛２：［木枯らしの海へ鯛焼き泳がんと］｝となる。

隔たり数関係リスト記憶部４０には、クラスタリング部３８によって更新される、隔たり数関係リストＤが格納される。

候補語抽出部３４及びクラスタリング部３８は、評価用俳句リストＨ２が空になるまで、候補語ｗの抽出及び隔たり数関係リストＤの更新を繰り返す。

例えば、俳句「木枯らしの海へ鯛焼き泳がんと」に対する処理が終了した後、候補語抽出部３４は、評価用俳句リストＨ２から次の俳句ｈ「木枯らしや目刺しに残る海の色」を取り出す。このとき、評価用俳句リストＨ２は｛急激に林檎と地球引き合う日、地球には裏表なし林檎剥く、朝刊とナイフと林檎置かれあり、木枯らしや初冬に吹きし空っ風｝となる。

そして、候補語抽出部３４は、俳句ｈ「木枯らしや目刺しに残る海の色」を複数の単語へ分割し、単語品詞リストＷ＝｛木枯らし（名詞）、や（助詞）、目刺し（名詞）、に（助詞）、残る（動詞）、海（名詞）、の（助詞）、色（名詞）｝を得る。

次に、候補語抽出部３４は、単語品詞リストＷから季語ｋ＝｛木枯らし｝を抽出する。そして、候補語抽出部３４は、俳句ｈ「木枯らしや目刺しに残る海の色」の季語ｋ＝｛木枯らし｝と、名詞の単語｛目指し、海、色｝との間の類似度が格納された類似度リストＳ＝｛目指し：０．２２、海：０．２７、色：０．０９｝を取得する。

次に、候補語抽出部３４は、類似度リストＳ＝｛目指し：０．２２、海：０．２７、色：０．０９｝のうちの最も高い類似度ｓ＝０．２７を特定し、類似度ｓ＝０．２７に対応する単語「海」を取り合わせ候補語ｗとして特定する。次に、取り合わせ候補語ｗ＝「海」の類似度ｓが０．２７であり、上限閾値Θ_Ｕ（＝０．３）以下であって、かつ下限閾値Θ_Ｌ（＝０．１）以上であるため、候補語抽出部３４は、クラスタリング部３８における隔たり閾値Θ_ｄを用いた判定処理に移行する。

クラスタリング部３８は、俳句ｈ「木枯らしや目刺しに残る海の色」についての、季語ｋ「木枯らし」と取り合わせ候補語ｗ「海」との間の隔たり数ｄを算出する。そして、クラスタリング部３８は、俳句ｈ「木枯らしや目刺しに残る海の色」と隔たり数ｄ＝５との組み合わせを、隔たり数関係リストＤに追加する。これにより、隔たり数関係リストＤ＝｛２：［木枯らしの海へ鯛焼き泳がんと］、５：［木枯らしや目刺しに残る海の色］｝となる。

俳句「木枯らしや目刺しに残る海の色」に対する処理が終了した後、候補語抽出部３４は、評価用俳句リストＨ２から次の俳句ｈ「急激に林檎と地球引き合う日」を取り出す。このとき、評価用俳句リストＨ２は｛地球には裏表なし林檎剥く、朝刊とナイフと林檎置かれあり、木枯らしや初冬に吹きし空っ風｝となる。

そして、候補語抽出部３４は、俳句ｈ「急激に林檎と地球引き合う日」を複数の単語へ分割し、単語品詞リストＷ＝｛急激（名詞）、に（助詞）、林檎（名詞）、と（助詞）、地球（名詞）、引き合う（動詞）、日（名詞）｝を得る。

次に、候補語抽出部３４は、単語品詞リストＷから季語ｋ＝｛林檎｝を抽出する。そして、候補語抽出部３４は、俳句ｈ「急激に林檎と地球引き合う日」の季語ｋ＝｛林檎｝と、名詞の単語｛急激、地球、日｝との間の類似度が格納された類似度リストＳ＝｛急激：０．００、地球：０．１５、日：０．０１｝を取得する。

次に、候補語抽出部３４は、類似度リストＳ＝｛急激：０．００、地球：０．１５、日：０．０１｝のうちの最も高い類似度ｓ＝０．１２を特定し、類似度ｓ＝０．１５に対応する単語「地球」を取り合わせ候補語ｗとして特定する。次に、取り合わせ候補語ｗ＝「地球」の類似度ｓが０．１５であり、上限閾値Θ_Ｕ（＝０．３）以下であって、かつ下限閾値Θ_Ｌ（＝０．１）以上であるため、候補語抽出部３４は、クラスタリング部３８における隔たり閾値Θ_ｄを用いた判定処理に移行する。

クラスタリング部３８は、俳句ｈ「急激に林檎と地球引き合う日」についての、季語ｋ「林檎」と取り合わせ候補語ｗ「地球」との間の隔たり数ｄを算出する。そして、クラスタリング部３８は、俳句ｈ「急激に林檎と地球引き合う日」と隔たり数ｄ＝２との組み合わせを、隔たり数関係リストＤに追加する。これにより、隔たり数関係リストＤ＝｛２：［木枯らしの海へ鯛焼き泳がんと、急激に林檎と地球引き合う日］、５：［木枯らしや目刺しに残る海の色］｝となる。

俳句「急激に林檎と地球引き合う日」に対する処理が終了した後、候補語抽出部３４は、評価用俳句リストＨ２から次の俳句ｈ「地球には裏表なし林檎剥く」を取り出す。このとき、評価用俳句リストＨ２は｛朝刊とナイフと林檎置かれあり、木枯らしや初冬に吹きし空っ風｝となる。

そして、候補語抽出部３４は、俳句ｈ「地球には裏表なし林檎剥く」を複数の単語へ分割し、単語品詞リストＷ＝｛地球（名詞）、に（助詞）、は（助詞）、裏表（名詞）、なし（形容詞）、林檎（名詞）、剥く（動詞）｝を得る。

次に、候補語抽出部３４は、単語品詞リストＷから季語ｋ＝｛林檎｝を抽出する。そして、候補語抽出部３４は、俳句ｈ「地球には裏表なし林檎剥く」の季語ｋ＝｛林檎｝と、名詞の単語｛地球、裏表｝との間の類似度が格納された類似度リストＳ＝｛地球：０．１５、裏表：０．１２｝を取得する。

次に、候補語抽出部３４は、類似度リストＳ＝｛地球：０．１５、裏表：０．１２｝のうちの最も高い類似度ｓ＝０．１５を特定し、類似度ｓ＝０．１５に対応する単語「地球」を取り合わせ候補語ｗとして特定する。次に、取り合わせ候補語ｗ＝「地球」の類似度ｓが０．１５であり、上限閾値Θ_Ｕ（＝０．３）以下であって、かつ下限閾値Θ_Ｌ（＝０．１）以上であるため、候補語抽出部３４は、クラスタリング部３８における隔たり閾値Θ_ｄを用いた判定処理に移行する。

クラスタリング部３８は、俳句ｈ「地球には裏表なし林檎剥く」についての、季語ｋ「林檎」と取り合わせ候補語ｗ「地球」との間の隔たり数ｄを算出する。そして、クラスタリング部３８は、俳句ｈ「地球には裏表なし林檎剥く」と隔たり数ｄ＝５との組み合わせを、隔たり数関係リストＤに追加する。これにより、隔たり数関係リストＤ＝｛２：［木枯らしの海へ鯛焼き泳がんと、急激に林檎と地球引き合う日］、５：［木枯らしや目刺しに残る海の色、地球には裏表なし林檎剥く］｝となる。

俳句「地球には裏表なし林檎剥く」に対する処理が終了した後、候補語抽出部３４は、評価用俳句リストＨ２から次の俳句ｈ「朝刊とナイフと林檎置かれあり」を取り出す。このとき、評価用俳句リストＨ２は｛木枯らしや初冬に吹きし空っ風｝となる。

そして、候補語抽出部３４は、俳句ｈ「朝刊とナイフと林檎置かれあり」を複数の単語へ分割し、単語品詞リストＷ＝｛朝刊（名詞）、と（助詞）、ナイフ（名詞）、と（助詞）、林檎（名詞）、置か（動詞）、れ（動詞）、あり（動詞）｝を得る。

次に、候補語抽出部３４は、単語品詞リストＷから季語ｋ＝｛林檎｝を抽出する。そして、候補語抽出部３４は、俳句ｈ「朝刊とナイフと林檎置かれあり」の季語ｋ＝｛林檎｝と、名詞の単語｛朝刊、ナイフ｝との間の類似度が格納された類似度リストＳ＝｛朝刊：０．０８、ナイフ：０．３４｝を取得する。

次に、候補語抽出部３４は、類似度リストＳ＝｛朝刊：０．０８、ナイフ：０．３４｝のうちの最も高い類似度ｓ＝０．３４を特定し、類似度ｓ＝０．３４に対応する単語「ナイフ」を取り合わせ候補語ｗとして特定する。次に、取り合わせ候補語ｗ＝「ナイフ」の類似度ｓが０．３４であり、上限閾値Θ_Ｕ（＝０．３）より大きいため、候補語抽出部３４は、クラスタリング部３８における隔たり閾値Θ_ｄを用いた判定処理に移行せずに、次の俳句に対する処理を行う。

俳句「朝刊とナイフと林檎置かれあり」に対する処理が終了した後、候補語抽出部３４は、評価用俳句リストＨ２から次の俳句ｈ「木枯らしや初冬に吹きし空っ風」を取り出す。このとき、評価用俳句リストＨ２は｛Φ｝となる。

そして、候補語抽出部３４は、俳句ｈ「木枯らしや初冬に吹きし空っ風」を複数の単語へ分割し、単語品詞リストＷ＝｛木枯らし（名詞）、や（助詞）、初冬（名詞）、に（助詞）、吹き（動詞）、し（助動詞）、空っ風（名詞）｝を得る。

次に、候補語抽出部３４は、単語品詞リストＷから季語ｋ＝｛木枯らし｝を抽出する。そして、候補語抽出部３４は、俳句ｈ「木枯らしや初冬に吹きし空っ風」の季語ｋ＝｛木枯らし｝と、名詞の単語｛初冬、空っ風｝との間の類似度が格納された類似度リストＳ＝｛初冬：０．２９、空っ風：０．４３｝を取得する。

次に、候補語抽出部３４は、類似度リストＳ＝｛初冬：０．２９、空っ風：０．４３｝のうちの最も高い類似度ｓ＝０．４３を特定し、類似度ｓ＝０．４３に対応する単語「空っ風」を取り合わせ候補語ｗとして特定する。次に、取り合わせ候補語ｗ＝「空っ風」の類似度ｓが０．４３であり、上限閾値Θ_Ｕ（＝０．３）より大きいため、候補語抽出部３４は、クラスタリング部３８における隔たり閾値Θ_ｄを用いた判定処理に移行せずに、俳句に対する処理を終了し、判定部４２の処理へ移行する。

判定部４２は、俳句における、季語ｋと取り合わせ候補語ｗとの間の単語数に基づいて、俳句における取り合わせを判定する。

具体的には、判定部４２は、閾値記憶部２９に格納されている隔たり閾値Θ_ｄを参照して、隔たり数関係リスト記憶部４０の隔たり数関係リストＤに格納されている隔たり数が、隔たり閾値Θ_ｄより大きな俳句を、取り合わせ俳句リストＨ_Ｔとして出力する。例えば、取り合わせ俳句リストＨ_Ｔ＝［木枯らしや目刺しに残る海の色，地球には裏表なし林檎剥く］が出力され、取り合わせ俳句リスト記憶部４４に格納される。

取り合わせ俳句リスト記憶部４４には、取り合わせが存在すると判定された評価用俳句のリストである、取り合わせ俳句リストＨ_Ｔが格納される。

判定装置１０は、例えば、図１２に示すコンピュータ５０で実現することができる。コンピュータ５０はＣＰＵ５１、一時記憶領域としてのメモリ５２、及び不揮発性の記憶部５３を備える。また、コンピュータ５０は、表示装置、入出力装置等（図示省略）が接続される入出力interface（Ｉ／Ｆ）５４、並びに記録媒体５９に対するデータの読み込み及び書き込みを制御するread/write（Ｒ／Ｗ）部５５を備える。また、コンピュータ５０は、インターネット等のネットワークに接続されるネットワークＩ／Ｆ５６を備える。ＣＰＵ５１、メモリ５２、記憶部５３、入出力Ｉ／Ｆ５４、Ｒ／Ｗ部５５、及びネットワークＩ／Ｆ５６は、バス５７を介して互いに接続される。

記憶部５３は、Hard Disk Drive（ＨＤＤ）、Solid State Drive（ＳＳＤ）、フラッシュメモリ等によって実現できる。記憶媒体としての記憶部５３には、コンピュータ５０を判定装置１０として機能させるための設定プログラム６０と判定プログラム６１とが記憶されている。設定プログラム６０は、分散表現作成プロセス６２と、閾値上限計算プロセス６３と、閾値下限計算プロセス６４と、隔たり閾値計算プロセス６５とを有する。判定プログラム６１は、候補語抽出プロセス６６と、クラスタリングプロセス６７と、判定プロセス６８とを有する。また、記憶部５３は、情報記憶領域６９を有する。情報記憶領域６９には、コーパス記憶部１２を構成する情報と、分散表現リスト記憶部１６を構成する情報と、類義語関係リスト記憶部１８を構成する情報と、単語リスト記憶部２２を構成する情報とが記憶される。また、情報記憶領域６９には、学習用俳句リスト記憶部２６を構成する情報と、閾値記憶部２９を構成する情報と、評価用俳句リスト記憶部３０を構成する情報と、季語リスト記憶部３２を構成する情報とが記憶される。また、情報記憶領域６９には、単語品詞リスト記憶部３６を構成する情報と、隔たり数関係リスト記憶部４０を構成する情報と、取り合わせ俳句リスト記憶部４４を構成する情報とが記憶される。

ＣＰＵ５１は、設定プログラム６０を記憶部５３から読み出してメモリ５２に展開し、設定プログラム６０が有するプロセスを順次実行する。また、ＣＰＵ５１は、判定プログラム６１を記憶部５３から読み出してメモリ５２に展開し、判定プログラム６１が有するプロセスを順次実行する。ＣＰＵ５１は、分散表現作成プロセス６２を実行することで、図２に示す分散表現作成部１４として動作する。また、ＣＰＵ５１は、閾値上限計算プロセス６３を実行することで、図２に示す閾値上限計算部２０として動作する。また、ＣＰＵ５１は、閾値下限計算プロセス６４を実行することで、図２に示す閾値下限計算部２４として動作する。また、ＣＰＵ５１は、隔たり閾値計算プロセス６５を実行することで、図２に示す隔たり閾値計算部２８として動作する。また、ＣＰＵ５１は、候補語抽出プロセス６６を実行することで、図２に示す候補語抽出部３４として動作する。また、ＣＰＵ５１は、クラスタリングプロセス６７を実行することで、図２に示すクラスタリング部３８として動作する。また、ＣＰＵ５１は、判定プロセス６８を実行することで、図２に示す判定部４２として動作する。また、ＣＰＵ５１は、情報記憶領域６９から情報を読み出して、コーパス記憶部１２をメモリ５２に展開する。また、ＣＰＵ５１は、情報記憶領域６９から情報を読み出して、分散表現リスト記憶部１６をメモリ５２に展開する。また、ＣＰＵ５１は、情報記憶領域６９から情報を読み出して、類義語関係リスト記憶部１８をメモリ５２に展開する。また、ＣＰＵ５１は、情報記憶領域６９から情報を読み出して、単語リスト記憶部２２をメモリ５２に展開する。また、ＣＰＵ５１は、情報記憶領域６９から情報を読み出して、学習用俳句リスト記憶部２６をメモリ５２に展開する。また、ＣＰＵ５１は、情報記憶領域６９から情報を読み出して、閾値記憶部２９をメモリ５２に展開する。また、ＣＰＵ５１は、情報記憶領域６９から情報を読み出して、評価用俳句リスト記憶部３０をメモリ５２に展開する。また、ＣＰＵ５１は、情報記憶領域６９から情報を読み出して、季語リスト記憶部３２をメモリ５２に展開する。また、ＣＰＵ５１は、情報記憶領域６９から情報を読み出して、単語品詞リスト記憶部３６をメモリ５２に展開する。また、ＣＰＵ５１は、情報記憶領域６９から情報を読み出して、隔たり数関係リスト記憶部４０をメモリ５２に展開する。また、ＣＰＵ５１は、情報記憶領域６９から情報を読み出して、取り合わせ俳句リスト記憶部４４をメモリ５２に展開する。これにより、設定プログラム６０と判定プログラム６１とを実行したコンピュータ５０が、判定装置１０として機能することになる。ソフトウェアである設定プログラム６０と判定プログラム６１とを実行するＣＰＵ５１はハードウェアである。

なお、設定プログラム６０及び判定プログラム６１により実現される機能は、例えば半導体集積回路、より詳しくはApplication Specific Integrated Circuit（ＡＳＩＣ）等で実現することも可能である。

次に、本実施形態に係る判定装置１０の作用について説明する。判定装置１０は、設定処理と判定処理とを実行する。以下、各処理について詳述する。

＜設定処理＞
設定処理では、分散表現作成部１４によって分散表現リストＢが作成される。また、閾値上限計算部２０によって上限閾値Θ_Ｕが計算され、閾値下限計算部２４によって下限閾値Θ_Ｌが計算され、隔たり閾値計算部２８によって隔たり閾値Θ_ｄが計算される。具体的には、図１３に示す設定処理が実行される。

ステップＳ１００において、分散表現作成部１４は、コーパス記憶部１２に格納されたコーパスから、単語を表すベクトルを生成する。そして、分散表現作成部１４は、単語と単語を表すベクトルとを分散表現リストＢへ格納する。分散表現リストＢは、分散表現リスト記憶部１６に格納される。

ステップＳ１０２において、閾値上限計算部２０は、上記ステップＳ１００で得られた分散表現リストＢと、類義語関係リスト記憶部１８に格納された類義語関係リストＹとを参照し、類義語関係にある単語間の類似度に応じて上限閾値を設定する。ステップＳ１０２の処理は、図１４に示す上限閾値計算処理によって実現される。

ステップＳ２００において、閾値上限計算部２０は、類義語関係にある単語間の類似度を格納するための類似度リストＳ_Ｕを設定する。

ステップＳ２０１において、閾値上限計算部２０は、類義語関係リスト記憶部１８に格納された類義語関係リストＹを参照し、類義語関係リストＹから類義語関係を一つ取り出し、類義語関係ｙとする。

ステップＳ２０２において、閾値上限計算部２０は、分散表現リストＢを参照して、上記ステップＳ２０１で得られた類義語関係ｙ中の単語のベクトル間のコサイン類似度を計算し、類似度リストＳ_Ｕへ追加する。

ステップＳ２０４において、閾値上限計算部２０は、類義語関係リストＹに含まれる全ての類義語関係について、ステップＳ２０１～ステップＳ２０２の処理を実行したか否かを判定する。類義語関係リストＹに含まれる全ての類義語関係について、ステップＳ２０１～ステップＳ２０２の処理を実行した場合には、ステップＳ２０６へ進む。一方、ステップＳ２０１～ステップＳ２０２の処理を実行していない類義語関係が類義語関係リストＹに存在する場合には、ステップＳ２０１へ戻る。

ステップＳ２０６において、閾値上限計算部２０は、上記ステップＳ２０２で類似度リストＳ_Ｕに格納された複数の類似度の平均値を計算し、上限閾値Θ_Ｕとする。閾値上限計算部２０は、上限閾値Θ_Ｕを閾値記憶部２９に格納する。

次に、図１３に示すステップＳ１０４において、閾値下限計算部２４は、上記ステップＳ１００で得られた分散表現リストＢと、単語リスト記憶部２２に格納された単語リストＴとを参照し、単語リストＴの単語のベクトル間の類似度から下限閾値を設定する。ステップＳ１０４の処理は、図１５に示す閾値下限計算処理によって実現される。

ステップＳ３００において、閾値下限計算部２４は、ランダムに選択された単語間の類似度を格納するための類似度リストＳ_Ｌ＝［］を設定する。

ステップＳ３０１において、閾値下限計算部２４は、単語リストＴからランダムに二つの単語を選択して単語ペア（ｔ１，ｔ２）を設定する。

ステップＳ３０２において、閾値下限計算部２４は、上記ステップＳ３０１で設定された単語ペア（ｔ１，ｔ２）が類義語関係リストＹに含まれているか否かを判定する。単語ペア（ｔ１，ｔ２）が類義語関係リストＹに含まれていない場合には、ステップＳ３０４へ進む。一方、単語ペア（ｔ１，ｔ２）が類義語関係リストＹに含まれている場合には、ステップＳ３０１へ戻る。

ステップＳ３０４において、閾値下限計算部２４は、分散表現リストＢを参照して、上記ステップＳ３０２で設定された単語ペア（ｔ１，ｔ２）のベクトル間のコサイン類似度を計算し、類似度リストＳ_Ｌへ追加する。

ステップＳ３０６において、閾値下限計算部２４は、単語リストＴから得られる全ての単語のペアについて、上記ステップＳ３０１～ステップＳ３０４の処理を実行したか否かを判定する。単語リストＴから得られる全ての単語のペアについて、上記ステップＳ３０１～ステップＳ３０４の処理を実行した場合には、ステップＳ３０８へ進む。一方、上記ステップＳ３０１～ステップＳ３０４の処理を実行していない単語のペアが単語リストＴに存在する場合には、ステップＳ３０１へ戻る。

ステップＳ３０８において、閾値下限計算部２４は、上記ステップＳ３０４で類似度リストＳ_Ｌに格納された複数の類似度の平均値を計算し、下限閾値Θ_Ｌとする。閾値下限計算部２４は、下限閾値Θ_Ｌを閾値記憶部２９に格納する。

次に図１３のステップＳ１０６において、隔たり閾値計算部２８は、学習用俳句リスト記憶部２６の学習用俳句リストＨ１を参照して、俳句の切れの前の単語数及び切れの後の単語数の何れか多い方の単語数に応じて、隔たり閾値を設定する。ステップＳ１０６の処理は、図１６に示す隔たり閾値計算処理によって実現される。

ステップＳ４００において、隔たり閾値計算部２８は、単語数を格納するための単語数リストＮ＝［］を設定する。

ステップＳ４０１において、隔たり閾値計算部２８は、学習用俳句リストＨ１から俳句を一つ取り出し、俳句ｈとする。

ステップＳ４０２において、隔たり閾値計算部２８は、上記ステップＳ４０１で得られた俳句ｈに対して形態素解析を行い、俳句ｈに含まれる単語の読みと単語の品詞とが格納される読み品詞リストＰを得る。

ステップＳ４０４において、隔たり閾値計算部２８は、上記ステップＳ４０２で得られた読み品詞リストＰを参照し、俳句ｈの読みの和が５又は１２となる箇所が、名詞又は「や」「かな」「けり」となっているか否かを検出する。俳句ｈの読みの和が５又は１２となる箇所が、名詞又は「や」「かな」「けり」となっている場合には、俳句ｈに切れが存在すると判定し、ステップＳ４０６へ進む。俳句ｈの読みの和が５又は１２となる箇所が、名詞又は「や」「かな」「けり」でない場合には、俳句ｈに切れが存在しないと判定し、ステップＳ４０１へ戻る。なお、俳句ｈ内に切れの検出箇所が複数ある場合は、切れがないものと判定し、ステップＳ４０１へ戻る。

ステップＳ４０６において、隔たり閾値計算部２８は、上記ステップＳ４０６で検出された切れの箇所に応じて、上記ステップＳ４０２で得られた読み品詞リストＰを参照し、俳句ｈの切れの前後の単語数のうち、多い方の単語数を単語数リストＮへ追加する。

ステップＳ４０８において、隔たり閾値計算部２８は、学習用俳句リストＨ１が空であるか否かを判定する。学習用俳句リストＨ１が空である場合には、ステップＳ４１０へ進む。一方、学習用俳句リストＨ１が空でない場合には、ステップＳ４０１へ進む。

ステップＳ４１０において、隔たり閾値計算部２８は、上記ステップＳ４０６で得られた単語数リストＮに含まれる単語数の平均値を計算し、隔たり閾値Θ_ｄとする。そして、隔たり閾値計算部２８は、隔たり閾値Θ_ｄを閾値記憶部２９に格納する。

＜判定処理＞
設定処理では、候補語抽出部３４、クラスタリング部３８、及び判定部４２によって、評価対象の複数の俳句に取り合わせが含まれているか否かが判定される。図１７に示す判定処理が実行される。

ステップＳ５００において、候補語抽出部３４は、評価用俳句リスト記憶部３０の評価用俳句リストＨ２から１つの俳句ｈを取得する。

ステップＳ５０２において、候補語抽出部３４は、上記ステップＳ５００で取得された俳句ｈに対して形態素解析を行い、俳句ｈを複数の単語へ分割する。また、候補語抽出部３４は、評価用の俳句ｈから得られた各単語と各単語の品詞を単語品詞リストＷへ格納する。

ステップＳ５０４において、候補語抽出部３４は、季語リスト記憶部３２に格納された季語リストＫを参照し、上記ステップＳ５０２で得られた単語品詞リストＷから季語ｋを抽出する。

ステップＳ５０６において、候補語抽出部３４は、分散表現リストＢを参照し、上記ステップＳ５０２で抽出された季語ｋのベクトルと、単語品詞リストＷの季語ｋとは異なる名詞の単語のベクトルとに基づいて、季語ｋと名詞の各単語との間の類似度を算出する。そして、候補語抽出部３４は、算出した類似度の各々を類似度リストＳへ格納する。

ステップＳ５０８において、候補語抽出部３４は、上記ステップＳ５０６で得られた類似度リストＳを参照し、類似度リストＳに格納された類似度のうちの最も高い類似度ｓを特定する。そして、候補語抽出部３４は、類似度ｓに対応する単語を取り合わせ候補語ｗとして特定する。

ステップＳ５１０において、候補語抽出部３４は、閾値記憶部２９に格納された各閾値を参照し、上記ステップＳ５０８で特定された取り合わせ候補語ｗの類似度ｓが、上限閾値Θ_Ｕ以下であってかつ下限閾値Θ_Ｌ以上であるか否かを判定する。取り合わせ候補語ｗの類似度ｓが、上限閾値Θ_Ｕ以下であってかつ下限閾値Θ_Ｌ以上である場合には、ステップＳ５１２へ進む。一方、取り合わせ候補語ｗの類似度ｓが、上限閾値Θ_Ｕ以下であってかつ下限閾値Θ_Ｌ以上でない場合には、ステップＳ５１６へ進む。

ステップＳ５１２において、クラスタリング部３８は、上記ステップＳ５０４で抽出された季語ｋと、上記ステップＳ５０８で特定された取り合わせ候補語ｗとの間の単語の隔たり数ｄを算出する。

ステップＳ５１４において、クラスタリング部３８は、上記ステップＳ５００で取得された俳句ｈと、上記ステップＳ５１２で算出された隔たり数ｄとの組み合わせを、隔たり数関係リストＤに追加する。

ステップＳ５１６において、クラスタリング部３８は、評価用俳句リストＨ２が空であるか否かを判定する。評価用俳句リストＨ２が空である場合には、ステップＳ５１８へ進む。一方、評価用俳句リストＨ２が空でない場合には、ステップＳ５００へ戻る。

ステップＳ５１８で、判定部４２は、閾値記憶部２９に格納されている隔たり閾値Θ_ｄを参照し、上記ステップＳ５１４で得られた隔たり数関係リストＤに格納されている隔たり数が、隔たり閾値Θ_ｄより大きな俳句を、取り合わせを含む俳句として判定する。

ステップＳ５２０において、判定部４２は、上記ステップＳ５１８で取り合わせを含む俳句として判定された俳句を俳句リストＨ_Ｔへ格納し、結果として出力する。俳句リストＨ_Ｔは取り合わせ俳句リスト記憶部４４へ格納される。

以上説明したように、本実施形態に係る判定装置は、自然文の集合であるコーパスから予め生成された単語を表すベクトルを参照し、俳句から分解された複数の単語の各々に対応するベクトルの各々を取得する。そして、判定装置は、俳句に含まれる季語に対応するベクトルと、俳句に含まれる、季語とは異なる単語に対応するベクトルとに基づいて、俳句に含まれる、季語とは異なる単語のうち、季語と関連する取り合わせ候補語を特定する。そして、判定装置は、俳句における、季語と取り合わせ候補語との間の単語数に基づいて、俳句における取り合わせを判定する。これにより、俳句において取り合わせを判定することができる。

また、自然文の集合であるコーパスに基づき生成された分散表現を利用し、俳句における取り合わせの判定を精度よく行うことができる。

また、季語と取り合わせ候補語との位置関係を考慮することで、俳句における取り合わせの判定を精度よく行うことができる。

上記実施形態の説明の際に用いた各俳句の出所を以下に示す。

[1]「閑さや岩にしみ入る蝉の声」松尾芭蕉（1689年）“奥の細道”（1702年)収録
[2]「木枯らしや目刺しに残る海の色」芥川龍之介（1918年）
[3]「木枯らしの海へ鯛焼き泳がんと」読み手不明（2008年）現代俳句協会のインターネット俳句会（第92回）＜http://www.gendaihaiku.gr.jp/haikukai/result.php?d=92_touku＞
[4]「花の雲鐘は上野か浅草か」松尾芭蕉（1687年）
[5]「夏草や兵どもが夢の跡」松尾芭蕉（1689年）“奥の細道”（1702年）収録
[6]「北風や国語の教師くしゃみする」（金子兜太,古谷三敏，「知識ゼロからの俳句入門」，幻冬舎(2006)から引用）
[7]「急激に林檎と地球引き合う日」読み手不明（2010年）現代俳句協会のインターネット俳句会（第114回）＜http://www.gendaihaiku.gr.jp/haikukai/result.php?d=114_touku＞
[8]「地球には裏表なし林檎剥く」あらえびす（2010年）現代俳句協会のインターネット俳句会（第117回）＜http://www.gendaihaiku.gr.jp/haikukai/result.php?d=117_koutokuten＞
[9]「朝刊とナイフと林檎置かれあり」やち坊主（2005年）現代俳句協会のインターネット俳句会（第55回）＜http://www.gendaihaiku.gr.jp/haikukai/result.php?d=55_senku＞
[10]「木枯らしや初冬に吹きし空っ風」古川忠延（2017年）

なお、上記では、各プログラムが記憶部に予め記憶（インストール）されている態様を説明したが、これに限定されない。開示の技術に係るプログラムは、ＣＤ－ＲＯＭ、ＤＶＤ－ＲＯＭ、ＵＳＢメモリ等の記録媒体に記録された形態で提供することも可能である。

本明細書に記載された全ての文献、特許出願及び技術規格は、個々の文献、特許出願及び技術規格が参照により取り込まれることが具体的かつ個々に記された場合と同程度に、本明細書中に参照により取り込まれる。

次に、上記実施形態の変形例を説明する。

上記の実施形態では、俳句を対象とし、俳句に取り合わせが含まれているか否かを反映する場合を例に説明したが、これに限定されるものではない。例えば、文章の一例である川柳を対象としてもよい。川柳を対象とする場合には、川柳に含まれる名詞の単語の組み合わせの全てについて、川柳に含まれる単語に対応するベクトル間の関係と、単語間の川柳における位置関係とに基づいて、川柳における取り合わせを判定すればよい。

上記実施形態では、俳句内の単語のベクトルに基づき取り合わせ候補語を抽出した後に、隔たり数に応じて取り合わせを判定する場合を例に説明したが、これに限定されるものではない。例えば、隔たり数に応じて取り合わせ候補語を俳句から抽出した後に、俳句内の単語のベクトルの関係に基づいて、取り合わせを判定するようにしてもよい。

また、上記実施形態の候補語抽出部３４は、類似度リストＳに格納された類似度のうちの最も高い類似度ｓを特定し、最も高い類似度ｓに対応する単語を取り合わせ候補語ｗとして、取り合わせの判定を行う場合を例に説明したが、これに限定されるものではない。例えば、最も高い類似度ｓに対応する取り合わせ候補語ｗが、季語との間で取り合わせに該当しない場合、類似度リストＳに格納された類似度のうち２番目に高い類似度に対応する単語を取り合わせ候補語ｗとして設定し、取り合わせについて判定を行ってもよい。また、更に、類似度リストＳのうちの２番目に高い類似度に対応する単語が取り合わせに該当しない場合には、類似度リストＳのうち３番目に高い類似度に対応する単語について取り合わせの判定を行うように、類似度の高い順に取り合わせの判定を行ってもよい。

以上の実施形態に関し、更に以下の付記を開示する。

（付記１）
俳句又は川柳を表す文章を複数の単語へ分解し、
自然文の集合から予め生成された単語の意味を表すベクトルを参照し、前記文章から分解された複数の前記単語の各々に対応する前記ベクトルの各々を取得し、
前記文章に含まれる第１の単語に対応する前記ベクトルと、前記文章に含まれる第２の単語に対応する前記ベクトルとの間の関係と、前記第１の単語と前記第２の単語との間の前記文章における位置関係とに基づいて、前記文章における取り合わせを判定する、
処理をコンピュータに実行させるための判定プログラム。

（付記２）
前記第１の単語に対応する前記ベクトルと、前記第２の単語に対応する前記ベクトルとの間の関係に基づいて、前記文章に含まれる、前記第２の単語のうち、前記第１の単語と関連する取り合わせ候補語を特定し、
前記文章における、前記第１の単語と前記取り合わせ候補語との間の単語数に基づいて、前記文章における取り合わせを判定する、
付記１に記載の判定プログラム。

（付記３）
前記文章は、前記俳句又は季語を含む前記川柳であり、
前記第１の単語は、前記季語であり、
前記第２の単語は、前記季語とは異なる単語である、
付記１又は付記２に記載の判定プログラム。

（付記４）
前記取り合わせ候補語を特定する際に、
前記第１の単語に対応する前記ベクトルとの間の類似度が、類義語関係にある単語間の類似度に応じて設定された上限閾値以下であり、かつランダムに選択された単語間の類似度に応じて設定された下限閾値以上である前記第２の単語を、前記取り合わせ候補語として特定する、
付記１～付記３の何れか１項に記載の判定プログラム。

（付記５）
前記文章における取り合わせを判定する際に、
前記第１の単語と前記取り合わせ候補語との間の単語数が、切れを含む俳句又は川柳を表す文章のうちの、前記切れの前の単語数及び前記切れの後の単語数の何れか多い方の単語数に応じて予め設定された隔たり閾値より大きい場合に、前記文章において取り合わせが有ると判定する、
付記１～付記４の何れか１項に記載の判定プログラム。

（付記６）
俳句又は川柳を表す文章を複数の単語へ分解し、
自然文の集合から予め生成された単語の意味を表すベクトルを参照し、前記文章から分解された複数の前記単語の各々に対応する前記ベクトルの各々を取得し、
前記文章に含まれる第１の単語に対応する前記ベクトルと、前記文章に含まれる第２の単語に対応する前記ベクトルとの間の関係と、前記第１の単語と前記第２の単語との間の前記文章における位置関係とに基づいて、前記文章における取り合わせを判定する判定部
を備える判定装置。

（付記７）
前記取り合わせ候補語を特定する際に、
前記季語に対応する前記ベクトルとの間の類似度が、類義語関係にある単語間の類似度に応じて設定された上限閾値以下であり、かつランダムに選択された単語間の類似度に応じて設定された下限閾値以上である前記単語を、前記取り合わせ候補語として特定する、
付記６に記載の判定装置。

（付記８）
前記第１の単語に対応する前記ベクトルと、前記第２の単語に対応する前記ベクトルとの間の関係に基づいて、前記文章に含まれる、前記第２の単語のうち、前記第１の単語と関連する取り合わせ候補語を特定し、
前記文章における、前記第１の単語と前記取り合わせ候補語との間の単語数に基づいて、前記文章における取り合わせを判定する、
付記６又は付記７に記載の判定装置。

（付記９）
前記文章は、前記俳句又は季語を含む前記川柳であり、
前記第１の単語は、前記季語であり、
前記第２の単語は、前記季語とは異なる単語である、
付記６～付記８の何れか１項に記載の判定装置。

（付記１０）
前記取り合わせ候補語を特定する際に、
前記第１の単語に対応する前記ベクトルとの間の類似度が、類義語関係にある単語間の類似度に応じて設定された上限閾値以下であり、かつランダムに選択された単語間の類似度に応じて設定された下限閾値以上である前記第２の単語を、前記取り合わせ候補語として特定する、
付記６～付記９の何れか１項に記載の判定装置。

（付記１１）
前記文章における取り合わせを判定する際に、
前記第１の単語と前記取り合わせ候補語との間の単語数が、切れを含む俳句又は川柳を表す文章のうちの、前記切れの前の単語数及び前記切れの後の単語数の何れか多い方の単語数に応じて予め設定された隔たり閾値より大きい場合に、前記文章において取り合わせが有ると判定する、
付記６～付記１０の何れか１項に記載の判定装置。

（付記１２）
俳句又は川柳を表す文章を複数の単語へ分解し、
自然文の集合から予め生成された単語の意味を表すベクトルを参照し、前記文章から分解された複数の前記単語の各々に対応する前記ベクトルの各々を取得し、
前記文章に含まれる第１の単語に対応する前記ベクトルと、前記文章に含まれる第２の単語に対応する前記ベクトルとの間の関係と、前記第１の単語と前記第２の単語との間の前記文章における位置関係とに基づいて、前記文章における取り合わせを判定する、
処理をコンピュータに実行させるための判定方法。

（付記１３）
前記第１の単語に対応する前記ベクトルと、前記第２の単語に対応する前記ベクトルとの間の関係に基づいて、前記文章に含まれる、前記第２の単語のうち、前記第１の単語と関連する取り合わせ候補語を特定し、
前記文章における、前記第１の単語と前記取り合わせ候補語との間の単語数に基づいて、前記文章における取り合わせを判定する、
付記１２に記載の判定プログラム。

（付記１４）
前記文章は、前記俳句又は季語を含む前記川柳であり、
前記第１の単語は、前記季語であり、
前記第２の単語は、前記季語とは異なる単語である、
付記１２又は付記１３に記載の判定プログラム。

（付記１５）
前記取り合わせ候補語を特定する際に、
前記第１の単語に対応する前記ベクトルとの間の類似度が、類義語関係にある単語間の類似度に応じて設定された上限閾値以下であり、かつランダムに選択された単語間の類似度に応じて設定された下限閾値以上である前記第２の単語を、前記取り合わせ候補語として特定する、
付記１２～付記１４の何れか１項に記載の判定プログラム。

（付記１６）
前記文章における取り合わせを判定する際に、
前記第１の単語と前記取り合わせ候補語との間の単語数が、切れを含む俳句又は川柳を表す文章のうちの、前記切れの前の単語数及び前記切れの後の単語数の何れか多い方の単語数に応じて予め設定された隔たり閾値より大きい場合に、前記文章において取り合わせが有ると判定する、
付記１２～付記１５の何れか１項に記載の判定プログラム。

（付記１７）
俳句又は川柳を表す文章を複数の単語へ分解し、
自然文の集合から予め生成された単語の意味を表すベクトルを参照し、前記文章から分解された複数の前記単語の各々に対応する前記ベクトルの各々を取得し、
前記文章に含まれる第１の単語に対応する前記ベクトルと、前記文章に含まれる第２の単語に対応する前記ベクトルとの間の関係と、前記第１の単語と前記第２の単語との間の前記文章における位置関係とに基づいて、前記文章における取り合わせを判定する、
処理をコンピュータに実行させるための判定プログラムを記憶した記憶媒体。

１０判定装置
１２コーパス記憶部
１４分散表現作成部
１６分散表現リスト記憶部
１８類義語関係リスト記憶部
２０閾値上限計算部
２２単語リスト記憶部
２４閾値下限計算部
２６学習用俳句リスト記憶部
２８閾値計算部
２９閾値記憶部
３０評価用俳句リスト記憶部
３２季語リスト記憶部
３４候補語抽出部
３６単語品詞リスト記憶部
３８クラスタリング部
４０隔たり数関係リスト記憶部
４２判定部
４４俳句リスト記憶部
５０コンピュータ
５１ＣＰＵ
５２メモリ
５３記憶部
６０設定プログラム
６１判定プログラム
５９記録媒体

Claims

俳句又は川柳を表す文章を複数の単語へ分解し、
自然文の集合から予め生成された単語の意味を表すベクトルを参照し、前記文章から分解された複数の前記単語の各々に対応する前記ベクトルの各々を取得し、
前記文章に含まれる第１の単語に対応する前記ベクトルと、前記文章に含まれる第２の単語に対応する前記ベクトルとの間の関係と、前記第１の単語と前記第２の単語との間の前記文章における位置関係とに基づいて、前記文章における取り合わせを判定する、
処理をコンピュータに実行させるための判定プログラム。
前記第１の単語に対応する前記ベクトルと、前記第２の単語に対応する前記ベクトルとの間の関係に基づいて、前記文章に含まれる、前記第２の単語のうち、前記第１の単語と関連する取り合わせ候補語を特定し、
前記文章における、前記第１の単語と前記取り合わせ候補語との間の単語数に基づいて、前記文章における取り合わせを判定する、
請求項１に記載の判定プログラム。
前記文章は、前記俳句又は季語を含む前記川柳であり、
前記第１の単語は、前記季語であり、
前記第２の単語は、前記季語とは異なる単語である、
請求項１又は請求項２に記載の判定プログラム。
前記取り合わせ候補語を特定する際に、
前記第１の単語に対応する前記ベクトルとの間の類似度が、類義語関係にある単語間の類似度に応じて設定された上限閾値以下であり、かつランダムに選択された単語間の類似度に応じて設定された下限閾値以上である前記第２の単語を、前記取り合わせ候補語として特定する、
請求項２に記載の判定プログラム。
前記文章における取り合わせを判定する際に、
前記第１の単語と前記取り合わせ候補語との間の単語数が、切れを含む俳句又は川柳を表す文章のうちの、前記切れの前の単語数及び前記切れの後の単語数の何れか多い方の単語数に応じて予め設定された隔たり閾値より大きい場合に、前記文章において取り合わせが有ると判定する、
請求項２又は請求項４に記載の判定プログラム。
俳句又は川柳を表す文章を複数の単語へ分解し、
自然文の集合から予め生成された単語の意味を表すベクトルを参照し、前記文章から分解された複数の前記単語の各々に対応する前記ベクトルの各々を取得し、
前記文章に含まれる第１の単語に対応する前記ベクトルと、前記文章に含まれる第２の単語に対応する前記ベクトルとの間の関係と、前記第１の単語と前記第２の単語との間の前記文章における位置関係とに基づいて、前記文章における取り合わせを判定する判定部
を備える判定装置。
俳句又は川柳を表す文章を複数の単語へ分解し、
自然文の集合から予め生成された単語の意味を表すベクトルを参照し、前記文章から分解された複数の前記単語の各々に対応する前記ベクトルの各々を取得し、
前記文章に含まれる第１の単語に対応する前記ベクトルと、前記文章に含まれる第２の単語に対応する前記ベクトルとの間の関係と、前記第１の単語と前記第２の単語との間の前記文章における位置関係とに基づいて、前記文章における取り合わせを判定する、
処理をコンピュータに実行させるための判定方法。