JP7295429B2

JP7295429B2 - 文書処理プログラム、文書処理方法および文書処理装置

Info

Publication number: JP7295429B2
Application number: JP2019189390A
Authority: JP
Inventors: 拓也上村
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2019-10-16
Filing date: 2019-10-16
Publication date: 2023-06-21
Anticipated expiration: 2039-10-16
Also published as: JP2021064252A

Description

本発明は文書処理プログラム、文書処理方法および文書処理装置に関する。

ユーザが文章を執筆し、多数の他のユーザに読んでもらうように文章を公開することがある。例えば、商品を販売する小売店が商品を紹介する説明文を執筆し、ネットワーク上に説明文を公開することがある。その場合、文章を執筆するユーザは、読み手が文章から特定の印象を受けることを期待することがある。例えば、商品を販売する小売店は、その商品のターゲットとする顧客層に対して良い印象を与えることを期待する。

そこで、ユーザは文章を公開するにあたり、その文章が読み手に与える客観的印象を評価することがある。また、評価した客観的印象が所望の印象とずれている場合、ユーザは文章を修正した上で公開することがある。このような文章の評価および編集を、情報処理システムによって支援する技術が提案されている。

例えば、ユーザが執筆した文章に対して、文章から受ける喜びや驚きなどの客観的印象を分析する印象分析装置が提案されている。提案の印象分析装置は、単語と当該単語から受ける印象の種類とを対応付けた単語辞書を予め保持しておく。印象分析装置は、入力された文章を形態素解析によって単語に分割し、文章に含まれる単語毎に印象の種類を判定し、印象の種類毎に単語数をカウントして文章全体に対するスコアを算出する。印象分析装置は、印象の種類毎のスコアをユーザに提示する。

また、例えば、ユーザが執筆した文章の文体を、ユーザが所望する印象が強くなるように変換する文書処理装置が提案されている。提案の文書処理装置は、単語と当該単語から受ける特定の種類の印象の強さを示す印象値とを対応付けたデータベースを予め保持している。文書処理装置は、入力された文章を形態素解析によって単語に分割し、ユーザから指定された印象に影響を与える単語を印象値の異なる別の単語に置換する。

特開２０００－２５０９０７号公報特開２０１７－８４０１５号公報

しかし、文章の編集を支援する従来技術は、個々の単語がもつ印象スコアに着目するものであった。そのため、単純に印象スコアの低い単語が印象スコアの高い単語に置換され、その結果、文脈上不自然な文章に変化してしまうことがあった。

１つの側面では、本発明は、文章の印象を変換する際に文脈の意図しない変化を抑制する文書処理プログラム、文書処理方法および文書処理装置を提供することを目的とする。

１つの態様では、コンピュータに以下の処理を実行させる文書処理プログラムが提供される。単語に対して当該単語がもつ印象のレベルを示すスコアを対応付けた単語辞書を参照して、評価対象の第１の文書に含まれる第１の単語に対する第１のスコアを算出する。単語辞書から、第１のスコアより高い印象のレベルを示す第２のスコアがそれぞれ対応付けられた複数の第２の単語を検索する。第１の文書と異なる第２の文書を用いて、複数の第２の単語それぞれに対して、第１の単語から第１の文書の中で所定範囲内にある第３の単語と当該第２の単語とを組み合わせた単語列の出現頻度を算出する。複数の第２の単語それぞれに対して算出した出現頻度に基づいて、複数の第２の単語のうち第１の単語と置換する第２の単語を選択する。

また、１つの態様では、コンピュータが実行する文書処理方法が提供される。また、１つの態様では、記憶部と処理部とを有する文書処理装置が提供される。

１つの側面では、文章の印象を変換する際に文脈の意図しない変化を抑制できる。

第１の実施の形態の文書処理装置の例を説明する図である。第２の実施の形態の文書処理装置のハードウェア例を示す図である。文書処理装置の機能例を示すブロック図である。単語辞書テーブルの例を示す図である。単語列テーブルの例を示す図である。単語変換例を示す図である。文書処理の手順例を示すフローチャートである。文書処理の手順例を示すフローチャート（続き）である。編集画面の第１の例を示す図である。編集画面の第２の例を示す図である。編集画面の第３の例を示す図である。

以下、本実施の形態を図面を参照して説明する。
［第１の実施の形態］
第１の実施の形態を説明する。

図１は、第１の実施の形態の文書処理装置の例を説明する図である。
第１の実施の形態の文書処理装置１０は、読み手が文書から受ける印象が変わるように文書の変換を支援する。文書処理装置１０は、クライアント装置でもよいしサーバ装置でもよい。文書処理装置１０を、コンピュータや情報処理装置と言うこともできる。

文書処理装置１０は、記憶部１１および処理部１２を有する。記憶部１１は、ＲＡＭ（Random Access Memory）などの揮発性半導体メモリでもよいし、ＨＤＤ（Hard Disk Drive）やフラッシュメモリなどの不揮発性ストレージでもよい。処理部１２は、例えば、ＣＰＵ（Central Processing Unit）、ＧＰＵ（Graphics Processing Unit）、ＤＳＰ（Digital Signal Processor）などのプロセッサである。ただし、処理部１２は、ＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field Programmable Gate Array）などの特定用途の電子回路を含んでもよい。プロセッサは、ＲＡＭなどのメモリ（記憶部１１でもよい）に記憶されたプログラムを実行する。複数のプロセッサの集合を「マルチプロセッサ」または単に「プロセッサ」と言うこともある。

記憶部１１は、予め用意された単語辞書１３を記憶する。単語辞書１３は、複数の単語それぞれに対して、その単語がもつ印象のレベルを示すスコアを対応付けている。スコアは、「かわいい」や「かっこいい」など、読み手が抱く特定の種類の感情の強さを表している。複数の印象軸を設定し、各単語に対して印象軸毎のスコアを対応付けてもよい。印象のレベルは、例えば、０～５の整数など複数段階に設定される。スコアは、例えば、値が大きいほど特定の印象のレベルが強いことを表す。各単語がもつ印象のレベルは、例えば、消費者アンケートなどを通じて事前に調査される。単語辞書１３は、文書のカテゴリ毎に用意されてもよいし、複数のカテゴリに共通のものであってもよい。

また、記憶部１１は、評価対象の文書１４（第１の文書）を記憶する。文書１４には、自然言語で文章（テキスト）が記載されている。文書１４に記載された文章は、多数の読み手に対して公開されることを予定したものであってもよく、商品を紹介するものであってもよい。例えば、文書１４に記載された文章は、小売企業がインターネット上に公開する商品紹介文章であってもよい。文書１４を作成した執筆担当者と文書処理装置１０を使用する編集担当者とは、同一であってもよいし異なってもよい。文書１４は、ユーザから入力されたものでもよいし、他の情報処理装置から受信されたものでもよい。

また、記憶部１１は、過去に作成された文章を示す文書１５（第２の文書）を記憶する。文書１５が示す文章は、好ましくは、推敲後にインターネット上に公開された文章など、既に推敲を受けた文章であることが好ましい。また、文書１５は、評価対象の文書１４と同じカテゴリであることが好ましい。文書１５は、文書のカテゴリ毎に用意されてもよい。商品紹介文章を示す文書のカテゴリとしては、例えば、商品の種類、商品のメーカー、商品のブランドやシリーズなどを挙げることができる。文書１５の内容は、元の文章そのものであってもよいし、元の文章から抽出された３－ｇｒａｍなどの単語列であってもよい。後述するように、ある単語列の出現頻度を文書１５から算出できればよい。

処理部１２は、評価対象の文書１４から単語ｗ１（第１の単語）を選択し、単語辞書１３を参照して単語ｗ１に対するスコア（第１のスコア）を算出する。単語ｗ１のスコアは、単語辞書１３において単語ｗ１に対応付けられているスコアである。単語ｗ１は、文書１４全体の印象のレベルを引き上げるために置換される可能性がある単語である。

例えば、単語ｗ１を、スコアが閾値未満の単語とする。また、例えば、単語ｗ１を、形容詞や形容動詞など所定の品詞の単語とする。これは、文章の意味の変化を抑制しつつ印象のレベルを効率的に調整するためである。また、各単語に対して複数の印象軸のスコアが対応付けられている場合、例えば、単語ｗ１を、ユーザが指定した所望の印象軸以外の他の印象軸のスコアが閾値未満の単語とする。これは、他の重要な印象のレベルが意図せず減退してしまうのを抑制するためである。

次に、処理部１２は、単語辞書１３から、単語ｗ１より高い印象のレベルを示すスコア（第２のスコア）が対応付けられた複数の単語（第２の単語）を検索する。例えば、単語ｗ１より大きいスコアをもつ単語ｗ２１，ｗ２２が検索される。単語ｗ２１，ｗ２２は、好ましくは、単語ｗ１と同じ品詞の単語とする。単語ｗ２１，ｗ２２は、単語ｗ１と置換することで所望の印象のレベルを引き上げることができる置換候補単語である。

次に、処理部１２は、文書１４の中で単語ｗ１から所定範囲内にある１以上の単語（第３の単語）を抽出する。所定範囲内にある単語としては、単語ｗ１の１つ前の単語、単語ｗ１の１つ後の単語、単語ｗ１の前後１つずつの単語、単語ｗ１の前後２つずつの単語などが考えられる。例えば、単語ｗ１の直前の単語ｗ３１と単語ｗ１の直後の単語ｗ３２とが抽出される。単語ｗ３１，ｗ３２の抽出では、名詞、動詞、形容詞、形容動詞などの意味的に重要性の高い品詞の単語を抽出対象とし、接続詞、副詞、助詞、助動詞などの意味的に重要性の低い品詞の単語を除外してもよい。選択された単語ｗ１とその所定範囲内にある単語ｗ３１，ｗ３２とを組み合わせた単語列（ｗ３１，ｗ１，ｗ３２）を３－ｇｒａｍと言うことができる。なお、所定範囲の定義に応じて、２－ｇｒａｍ、４－ｇｒａｍ、５－ｇｒａｍなど長さの異なる単語列を形成することもできる。

次に、処理部１２は、単語辞書１３から検索された単語ｗ２１，ｗ２２それぞれに対して、選択された単語ｗ１を当該置換候補単語に置換した単語列を生成する。例えば、３－ｇｒａｍである単語列（ｗ３１，ｗ２１，ｗ３２）と単語列（ｗ３１，ｗ２２，ｗ３２）とが生成される。処理部１２は、予め用意された文書１５を用いて、生成された単語列それぞれの出現頻度を算出する。単語列の出現頻度は、その単語列の尤度であってもよい。尤度は、文書１５に出現する同じ長さの単語列であって単語ｗ１を含む単語列のうち、生成された単語列の個数の割合であってもよい。

例えば、処理部１２は、単語ｗ２１を含む３－ｇｒａｍの個数を文書１５からカウントし、そのうち（ｗ３１，ｗ２１，ｗ３２）である３－ｇｒａｍの個数をカウントし、前者の個数に対する後者の個数の割合を単語ｗ２１に対する尤度として算出する。また、処理部１２は、単語ｗ２２を含む３－ｇｒａｍの個数を文書１５からカウントし、そのうち（ｗ３１，ｗ２２，ｗ３２）である３－ｇｒａｍの個数をカウントし、前者の個数に対する後者の個数の割合を単語ｗ２２に対する尤度として算出する。尤度の算出にあたり、前単語と後単語とを入れ替えた３－ｇｒａｍを同一単語列とみなしてもよいし、３つの単語の順序を任意に入れ替えた３－ｇｒａｍを同一単語列とみなしてもよい。

そして、処理部１２は、単語ｗ２１，ｗ２２それぞれに対して算出した出現頻度に基づいて、単語ｗ２１，ｗ２２のうち単語ｗ１と置換する単語を選択する。出現頻度が高い単語が優先的に選択されることが好ましい。処理部１２は、出現頻度が最も高い単語を選択してもよい。例えば、処理部１２は、単語ｗ１と置換する単語として単語ｗ２１を選択する。処理部１２は、置換候補単語の選択結果を出力してもよい。例えば、処理部１２は、置換候補単語の選択結果を所定のストレージ装置に記憶してもよいし、表示装置に表示してもよいし、他の情報処理装置に送信してもよい。その後、処理部１２は、ユーザからの指示に応じて文書１４の単語ｗ１を単語ｗ２１に置換してもよい。また、処理部１２は、文書１４の単語ｗ１を単語ｗ２１に置換した文書を出力するようにしてもよい。例えば、処理部１２は、変換後の文書１４を所定のストレージ装置に記憶してもよいし、表示装置に表示してもよいし、他の情報処理装置に送信してもよい。

第１の実施の形態の文書処理装置１０によれば、文書１４に含まれる単語ｗ１に対して印象のレベルを示すスコアが算出され、単語ｗ１より高い印象のレベルを示すスコアをもつ単語ｗ２１，ｗ２２が検索される。単語ｗ１から所定範囲内にある単語ｗ３１，ｗ３２と単語ｗ２１，ｗ２２それぞれとを組み合わせた単語列の出現頻度が、文書１４と異なる文書１５を用いて算出される。そして、算出された出現頻度に基づいて、単語ｗ２１，ｗ２２のうち単語ｗ１と置換する単語が選択される。

これにより、文書１４に記載された文章を、「かわいい」や「かっこいい」などの所望の印象が強化された文章に編集することが容易となる。よって、商品の販売コンセプトに合った印象を消費者に伝達するなど、書き手が意図する印象を読み手に効率的に伝達することができる。また、過去の文書１５を利用して、置換候補単語と周辺単語とを組み合わせた単語列の出現頻度に応じて置換候補単語が優先付けられる。よって、文脈上不自然な単語置換が行われるのを抑制でき、文脈の意図しない変化を抑制することができる。その結果、所望の印象を強化する文章変換の精度が向上する。

［第２の実施の形態］
次に、第２の実施の形態を説明する。
第２の実施の形態の文書処理装置は、多数の読み手に対して公開される文章の編集を支援する。第２の実施の形態では一例として、衣服などの商品を販売する小売業者が、商品を紹介する文章をインターネット上に公開する業務形態を想定する。例えば、第２の実施の形態の文書処理装置は、編集担当者によって使用され、執筆担当者によって執筆された商品紹介文を公開前に評価して編集する。第２の実施の形態の文書処理装置は、クライアント装置でもよいしサーバ装置でもよい。また、第２の実施の形態の文書処理装置を、コンピュータや情報処理装置と言うこともできる。

図２は、第２の実施の形態の文書処理装置のハードウェア例を示す図である。
文書処理装置１００は、ＣＰＵ１０１、ＲＡＭ１０２、ＨＤＤ１０３、画像インタフェース１０４、入力インタフェース１０５、媒体リーダ１０６および通信インタフェース１０７を有する。文書処理装置１００が有するこれらのユニットは、バスに接続されている。文書処理装置１００は、第１の実施の形態の文書処理装置１０に対応する。ＣＰＵ１０１は、第１の実施の形態の処理部１２に対応する。ＲＡＭ１０２またはＨＤＤ１０３は、第１の実施の形態の記憶部１１に対応する。

ＣＰＵ１０１は、プログラムの命令を実行するプロセッサである。ＣＰＵ１０１は、ＨＤＤ１０３に記憶されたプログラムやデータの少なくとも一部をＲＡＭ１０２にロードし、プログラムを実行する。ＣＰＵ１０１は複数のプロセッサコアを備えてもよく、文書処理装置１００は複数のプロセッサを備えてもよい。複数のプロセッサの集合を「マルチプロセッサ」または単に「プロセッサ」と言うことがある。

ＲＡＭ１０２は、ＣＰＵ１０１が実行するプログラムやＣＰＵ１０１が演算に使用するデータを一時的に記憶する揮発性半導体メモリである。文書処理装置１００は、ＲＡＭ以外の種類のメモリを備えてもよく、複数のメモリを備えてもよい。

ＨＤＤ１０３は、ＯＳ（Operating System）やミドルウェアやアプリケーションソフトウェアなどのソフトウェアのプログラム、および、データを記憶する不揮発性ストレージである。文書処理装置１００は、フラッシュメモリやＳＳＤ（Solid State Drive）など他の種類のストレージを備えてもよく、複数のストレージを備えてもよい。

画像インタフェース１０４は、ＣＰＵ１０１からの命令に従って、文書処理装置１００に接続された表示装置１１１に画像を出力する。表示装置１１１として、ＣＲＴ（Cathode Ray Tube）ディスプレイ、液晶ディスプレイ（ＬＣＤ：Liquid Crystal Display）、有機ＥＬ（ＯＥＬ：Organic Electro-Luminescence）ディスプレイ、プロジェクタなど、任意の種類の表示装置を使用することができる。文書処理装置１００に、プリンタなど表示装置１１１以外の出力デバイスが接続されてもよい。

入力インタフェース１０５は、文書処理装置１００に接続された入力デバイス１１２から入力信号を受け付ける。入力デバイス１１２として、マウス、タッチパネル、タッチパッド、キーボードなど、任意の種類の入力デバイスを使用することができる。文書処理装置１００に複数種類の入力デバイスが接続されてもよい。

媒体リーダ１０６は、記録媒体１１３に記録されたプログラムやデータを読み取る読み取り装置である。記録媒体１１３として、フレキシブルディスク（ＦＤ：Flexible Disk）やＨＤＤなどの磁気ディスク、ＣＤ（Compact Disc）やＤＶＤ（Digital Versatile Disc）などの光ディスク、半導体メモリなど、任意の種類の記録媒体を使用することができる。媒体リーダ１０６は、例えば、記録媒体１１３から読み取ったプログラムやデータを、ＲＡＭ１０２やＨＤＤ１０３などの他の記録媒体にコピーする。読み取られたプログラムは、例えば、ＣＰＵ１０１によって実行される。なお、記録媒体１１３は可搬型記録媒体であってもよく、プログラムやデータの配布に用いられることがある。また、記録媒体１１３やＨＤＤ１０３を、コンピュータ読み取り可能な記録媒体と言うことがある。

通信インタフェース１０７は、ネットワーク１１４に接続され、ネットワーク１１４を介して他の情報処理装置と通信する。通信インタフェース１０７は、スイッチやルータなどの有線通信装置に接続される有線通信インタフェースでもよいし、基地局やアクセスポイントなどの無線通信装置に接続される無線通信インタフェースでもよい。

前述のように、文書処理装置１００は、文書の編集を支援する。文書処理装置１００は、文章の印象に影響を与え得る単語それぞれに対して、１３個の印象軸の観点から１３個の印象スコアを対応付けた単語辞書を保持しておく。文書処理装置１００は、編集対象の文書から単語辞書に登録された単語を検出し、１３個の印象軸の観点から文書全体の印象スコアの分布を算出してユーザに提示する。

１３個の印象軸のうち強化したい印象軸がユーザから指定されると、文書処理装置１００は、指定された印象軸の印象スコアが低い単語を、指定された印象軸の印象スコアが高い別の単語に置換することで、編集対象の文書から受ける所望の印象を強化する。このとき、文脈を無視して単純に印象スコアの低い単語を印象スコアの高い単語に置換すると、文脈上不自然な文が生じてしまうおそれがある。そこで、文書処理装置１００は、置換元の単語を品詞などに基づいて絞り込む。また、文書処理装置１００は、過去の推敲済み文書を参照して、単語の組み合わせの自然さを評価して置換先の単語を絞り込む。

図３は、文書処理装置の機能例を示すブロック図である。
文書処理装置１００は、単語データベース１２１、過去文書データベース１２２、ユーザ通信部１２３、単語分割部１２４、スコア算出部１２５および単語変換部１２６を有する。単語データベース１２１および過去文書データベース１２２は、例えば、ＲＡＭ１０２またはＨＤＤ１０３の記憶領域を用いて実現される。ユーザ通信部１２３、単語分割部１２４、スコア算出部１２５および単語変換部１２６は、例えば、ＣＰＵ１０１が実行するプログラムを用いて実現される。

単語データベース１２１は、複数の単語それぞれに対して１３個の印象軸の印象スコアを対応付けた単語辞書を記憶する。単語辞書には、商品販売分野において読み手の印象に影響を与え得る１０００語～１００００語程度の単語が登録されている。１３個の印象軸は、「季節感」や「オーソドックス感」など予め決められている。印象スコアは、０，１，２，３，４，５の６段階評価値である。印象スコアが大きいほど、文章の読み手が受ける印象が強いことを示す。各単語の印象スコアは、消費者アンケートなどの実地調査に基づいて予め決定されている。単語辞書は、商品ジャンルやブランドやブランドシリーズなどの商品カテゴリ（第２の実施の形態では「ブランド」と言うことがある）毎に用意してもよいし、複数のブランド共通で用意してもよい。

過去文書データベース１２２は、過去に公開された推敲済み記事を記載した過去文書を記憶する。また、過去文書データベース１２２は、過去文書から抽出された３－ｇｒａｍを示す単語列データを記憶する。形態素解析などの自然言語解析によって過去文書に記載された文章を単語に分割し、連続する３つの単語を検出することで３－ｇｒａｍが生成される。過去文書を予め分析しておくことで単語列データが生成される。ただし、３－ｇｒａｍの単語は、名詞、動詞、形容詞、形容動詞などの意味的に重要性の高い品詞の単語とし、接続詞、副詞、助詞、助動詞などの意味的に重要性の低い品詞の単語は無視する。単語列データはブランド毎に用意される。蓄積された過去文書がブランドに応じて分類され、ブランド単位で３－ｇｒａｍが抽出される。

ユーザ通信部１２３は、文書を編集するためのユーザインタフェースを提供する。ユーザ通信部１２３は、入力インタフェース１０５からユーザ入力を受け付け、表示装置１１１に編集画面を表示するようにしてもよい。また、ユーザ通信部１２３は、他の情報処理装置からユーザ入力を受信し、他の情報処理装置に編集画面データを送信してもよい。

ユーザ通信部１２３は、編集前文章を受け付ける。すると、ユーザ通信部１２３は、編集前文章を単語分割部１２４に出力し、１３個の印象軸の印象スコアの分布をスコア算出部１２５から取得する。ユーザ通信部１２３は、編集前文章と印象スコアの分布とを表示するための編集画面を出力する。その後、ユーザ通信部１２３は、１３個の印象軸のうち印象スコアを引き上げたい印象軸の指定を受け付ける。すると、ユーザ通信部１２３は、印象軸の指定を単語変換部１２６に出力し、編集前文章の中の一部の単語が置換された編集後文章を単語変換部１２６から取得し、修正された印象スコアの分布をスコア算出部１２５から取得する。ユーザ通信部１２３は、編集前文章と編集後文章と修正された印象スコアの分布とを表示するための編集画面を出力する。

単語分割部１２４は、ユーザ通信部１２３から編集前文章を取得する。すると、単語分割部１２４は、形態素解析などの自然言語解析によって編集前文章を単語に分割する。また、単語分割部１２４は、分割した単語それぞれに対して、名詞、動詞、形容詞、形容動詞などの品詞を示す品詞ラベルを付与する。単語分割部１２４は、品詞ラベル付きの単語に分割された編集前文章を、スコア算出部１２５および単語変換部１２６に出力する。

スコア算出部１２５は、単語に分割された編集前文章を単語分割部１２４から取得し、単語データベース１２１に記憶された単語辞書に登録されている単語を検出する。スコア算出部１２５は、検出した単語に対応付けられている１３個の印象軸の印象スコアを読み出し、印象軸毎に印象スコアの平均値を算出する。この印象スコアの平均値は、編集対象の文書全体に対する印象スコアとなる。スコア算出部１２５は、算出した１３個の印象軸の印象スコアの分布をユーザ通信部１２３に出力する。

また、スコア算出部１２５は、編集前文章と編集後文章の差分を示す単語変換の指示を単語変換部１２６から受け付ける。すると、スコア算出部１２５は、変換後単語に対応付けられた印象スコアを単語辞書から読み出す。スコア算出部１２５は、印象軸毎の印象スコアの平均値を再計算し、修正後の印象スコアの分布をユーザ通信部１２３に出力する。

単語変換部１２６は、品詞ラベル付きの単語に分割された編集前文章を単語分割部１２４から取得する。また、単語変換部１２６は、ブランドおよび印象軸の指定をユーザ通信部１２３から受け付ける。すると、単語変換部１２６は、編集前文章に含まれる単語の中から、指定された印象軸の印象スコアを改善する余地がある変換元単語を選択する。単語変換部１２６は、単語データベース１２１に記憶された単語辞書から、選択した変換元単語と置換することが可能な複数の変換候補単語を検索する。単語変換部１２６は、検索された複数の変換候補単語の中から１つの変換候補単語を選択し、変換元単語を当該変換候補単語に置換した編集後文章をユーザ通信部１２３に出力する。

変換候補単語の絞り込みでは、単語変換部１２６は、過去文書データベース１２２に記憶された単語列データのうち、指定されたブランドに対応する単語列データを利用する。まず、単語変換部１２６は、編集前文章から変換元単語の直前にある前単語および変換元単語の直後にある後単語を抽出する。ただし、前単語および後単語は、名詞、動詞、形容詞、形容動詞などの意味的に重要性の高い品詞の単語とし、接続詞、副詞、助詞、助動詞などの意味的に重要性の低い品詞の単語は無視する。

次に、単語変換部１２６は、複数の変換候補単語それぞれについて、前単語と１つの変換候補単語と後単語とを組み合わせた３－ｇｒａｍを生成する。単語変換部１２６は、指定されたブランドに対応する単語列データを参照して、その３－ｇｒａｍの尤度を算出する。尤度は、その３つの単語の共起頻度を表していると言うことができ、文脈の自然さの評価尺度と解釈することができる。尤度が高いほどその単語列が文脈上自然であることを表し、尤度が低いほどその単語列が文脈上不自然であることを表す。そして、単語変換部１２６は、最も尤度が高い３－ｇｒａｍの変換候補単語を選択する。

図４は、単語辞書テーブルの例を示す図である。
単語辞書テーブル１３１は、単語データベース１２１に記憶されている。単語辞書テーブル１３１には、「きれいめ」、「フェミニン」、「ガーリー」など、１０００個～１００００個程度の単語が登録されている。また、単語辞書テーブル１３１には、形容詞や形容動詞など、各単語の品詞が登録されている。また、単語辞書テーブル１３１には、各単語に対して１３個の印象軸の印象スコアが登録されている。

１３個の印象軸は、「季節感」、「オーソドックス感」、「冒険感」、「トレンド感」、「かわいい感」、「かっこいい感」、「モテ感」、「高級感」、「快適感」、「特別感」、「着こなし」、「オン」および「オフ」である。印象スコアは、０～５の６段階評価値である。印象スコアが高いほど、読み手が単語から受ける印象が強いことを意味する。例えば、単語「きれいめ」は、かわいい感＝２であり、単語「フェミニン」および単語「ガーリー」は、かわいい感＝５である。これは、「フェミニン」または「ガーリー」から読み手が受けるかわいい感の印象が、「きれいめ」よりも強いことを表している。

図５は、単語列テーブルの例を示す図である。
単語列テーブル１３２，１３３は、過去文書データベース１２２に記憶されている。単語列テーブル１３２は、文書のカテゴリであるブランドＡに対応する。単語列テーブル１３２には、ブランドＡの商品説明文に使用された単語列が登録される。単語列テーブル１３３は、文書のカテゴリであるブランドＢに対応する。単語列テーブル１３３には、ブランドＢの商品説明文に使用された単語列が登録される。なお、単語列テーブルは、商品ジャンルやブランドシリーズなど所望のカテゴリ単位で作成してよい。

単語列テーブル１３２は、それぞれ３－ｇｒａｍを示す複数のレコードを含む。各レコードは、前単語、中心単語および後単語を含む。中心単語は、過去文書の中の着目する単語である。前単語は、過去文書の中で中心単語の直前に現れた単語である。後単語は、過去文書の中で中心単語の直後に現れた単語である。ただし、前単語、中心単語および後単語は、名詞、動詞、形容詞、形容動詞などの主要な品詞の単語とする。単語列テーブル１３３も、単語列テーブル１３２と同様のデータ構造をもつ。

例えば、（控え目，フェミニン，お仕事）、（清楚，フェミニン，大人）、（甘い，ガーリー，オフ）などの３－ｇｒａｍが単語列テーブル１３２に登録される。なお、単語列テーブル１３２の３－ｇｒａｍは、ブランドＡに関する過去文書の文章を単語に分割し、着目する単語を先頭から末尾に向かって１つずつずらしていくことで生成することができる。単語列テーブル１３２には、同じ３－ｇｒａｍが複数回出現し得る。ただし、同じ３－ｇｒａｍをグルーピングし、その出現回数を付記するようにしてもよい。

次に、単語変換方法の具体例を説明する。
図６は、単語変換例を示す図である。
文書１３４は、編集対象の文書の一例である。文書１３４には、単語辞書に登録されたキーワードとして、「キュート」、「フリル」、「プルオーバーニット」および「きれいめ」が含まれている。ユーザは、印象軸「かわいい感」に着目しているとする。「キュート」はかわいい感＝５、「フリル」はかわいい感＝３、「プルオーバーニット」はかわいい感＝３、「きれいめ」はかわいい感＝２である。キーワードの印象スコアの平均値を文書全体の印象スコアと定義すると、印象軸「かわいい感」の文書全体の印象スコアは、（５＋３＋３＋２）／４＝３．２と算出される。

ここで、印象軸「かわいい感」を強化するために、文章の文脈を考慮せずに個々のキーワードのみに着目するという単純な単語変換方法を考える。１つの単語変換方法として、印象軸「かわいい感」の印象スコアが最大値未満であるキーワードを、品詞が同一で印象スコアが大きい別のキーワードに置換するものとする。

すると、文書１３４が文書１３５に変換される。文書１３５では、「キュート」は印象スコアが最大であるため置換されていない。「フリル」は印象スコアが最大値未満の名詞であるため、印象スコアが高い名詞である「リボン」に置換されている。「プルオーバーニット」は印象スコアが最大値未満の名詞であるが、適切な他のキーワードがないため置換されていない。「きれいめ」は印象スコアが最大値未満の形容動詞であるため、印象スコアが高い形容動詞である「ガーリー」に置換されている。「リボン」はかわいい感＝５、「ガーリー」はかわいい感＝５である。よって、印象軸「かわいい感」の文書全体の印象スコアは、（５＋５＋３＋５）／４＝４．５と算出される。

しかし、文書１３４から文書１３５への変換によって、所望の印象軸「かわいい感」の印象スコアが大きくなっているものの、文章の意味が意図せず変化する意味違反も生じている。名詞「フリル」が名詞「リボン」に置換されているため、紹介する商品の特徴が変わってしまっている。また、変換前の「きれいめ」という修飾語は、周辺語である「控え目」や「お仕事」と意味的な相性が良いため、「控え目かつきれいめなお仕事コーディネート」という表現は自然である。これに対して、変換後の「ガーリー」という修飾語は、周辺語である「控え目」や「お仕事」と意味的な相性が悪いため、「控え目かつガーリーなお仕事コーディネート」という表現は不自然である。

そこで、文書処理装置１００は、文脈上不自然な文章に変換されてしまうのを抑制するため、文章の文脈を考慮して以下のように単語変換を行う。まず、文書処理装置１００は、変換元単語を、品詞が形容詞または形容動詞である単語に限定する。名詞を変換元単語から除外することで、説明対象の特徴が変化してしまうリスクが低減する。特に、商品説明文の冒頭には商品ジャンルや商品名が記載されることが多く、これらの名詞は残しておくことが好ましい。また、変換元単語を形容詞や形容動詞などの修飾語に限定することで、文章の印象を効率的に変換することができる。また、文書処理装置１００は、変換後の３－ｇｒａｍの尤度が高くなるように変換候補単語を絞り込む。過去文書にあまり出現しない３－ｇｒａｍは不自然な表現である可能性が高いためである。

その結果、文書１３４が文書１３６に変換される。文書１３６では、「キュート」は印象スコアが最大であるため置換されない。「フリル」は名詞であるため置換されない。「プルオーバーニット」は名詞であるため置換されない。これに対して、「きれいめ」は印象スコアが最大でなく形容動詞であるため、変換元単語として選択される。

「きれいめ」に対して、文書処理装置１００は、印象スコアが高い別の形容動詞である「ガーリー」、「ギャル」および「フェミニン」を、変換候補単語として検索する。すると、文書処理装置１００は、（控え目，ガーリー，お仕事）、（控え目，ギャル，お仕事）、（控え目，フェミニン，お仕事）という３つの３－ｇｒａｍそれぞれの尤度を算出する。これら３つの３－ｇｒａｍのうち（控え目，フェミニン，お仕事）の尤度が最も高いとする。これにより、文書処理装置１００は、「ガーリー」、「ギャル」および「フェミニン」のうち「フェミニン」を選択し、「きれいめ」を「フェミニン」に置換する。

「フェミニン」はかわいい感＝５である。よって、印象軸「かわいい感」の文書全体の印象スコアは、（５＋３＋３＋５）／４＝４．０と算出される。文書１３６は文書１３５より印象スコアが低いものの、文書１３５と比べて意味違反が抑制された自然な文章となっている。このため、文書１３４が文書１３６に変換されることが好ましい。

次に、文書処理装置１００の処理手順について説明する。
図７は、文書処理の手順例を示すフローチャートである。
（Ｓ１０）ユーザ通信部１２３は、編集対象の文書を取得する。

（Ｓ１１）単語分割部１２４は、ステップＳ１０で取得した文書に記載された文章を、形態素解析などの自然言語解析によって単語に分割する。また、単語分割部１２４は、分割された単語それぞれに対して、その単語の品詞を示す品詞ラベルを付加する。

（Ｓ１２）スコア算出部１２５は、単語データベース１２１に記憶された単語辞書テーブル１３１に登録されている単語を、編集対象の文書から抽出する。
（Ｓ１３）スコア算出部１２５は、単語辞書テーブル１３１から、ステップＳ１２で抽出された単語に対応付けられている１３個の印象軸の印象スコアを検索する。スコア算出部１２５は、１３個の印象軸それぞれについて、抽出された単語の印象スコアを集計する。例えば、スコア算出部１２５は、印象軸毎に印象スコアの平均値を求める。集計された印象スコアが、編集対象の文書全体に対する印象スコアとなる。

（Ｓ１４）ユーザ通信部１２３は、編集前文章と１３個の印象軸の印象スコアの分布とを含む編集画面を表示させる。印象スコアの分布は、例えば、一覧表やレーダーチャートとして可視化される。ユーザ通信部１２３は、表示装置１１１に編集画面を表示させてもよいし、他の情報処理装置に編集画面データを送信してもよい。

（Ｓ１５）ユーザ通信部１２３は、編集画面上において、編集対象の文書が属するカテゴリであるブランドの指定を受け付ける。また、ユーザ通信部１２３は、編集画面上において、１３個の印象軸のうち印象スコアを上げたい印象軸の指定を受け付ける。

（Ｓ１６）単語変換部１２６は、ステップＳ１２で抽出された単語のうち、指定された印象軸の印象スコアが最大である単語を変換元単語から除外する。例えば、単語変換部１２６は、印象スコアが６段階評価値のうちの「５」である単語を除外する。

（Ｓ１７）単語変換部１２６は、ステップＳ１６で残った単語のうち、品詞が形容詞および形容動詞以外の単語を変換元単語から除外する。なお、各単語の品詞は、ステップＳ１１の自然言語解析において判定されている。

（Ｓ１８）単語変換部１２６は、ステップＳ１７で残った単語のうち、指定されなかった印象軸の印象スコアが閾値を超える単語を変換元単語から除外する。他の印象軸の印象スコアが大きい単語を除外するのは、その単語を置換することで他の印象軸の印象スコアが低下して他の印象が大きく変わってしまうのを抑制するためである。例えば、閾値＝３とし、他の印象軸の印象スコアが「４」または「５」である単語を除外する。

図８は、文書処理の手順例を示すフローチャート（続き）である。
（Ｓ１９）単語変換部１２６は、編集前文章の中で、ステップＳ１８で残った何れかの単語が出現する出現位置を１つ選択する。同一単語が２箇所以上に出現する場合、単語変換部１２６は、当該２箇所以上の出現位置を区別し、出現位置を１つずつ選択する。これは、単語が同一でも出現位置毎に文脈が異なるためである。

（Ｓ２０）単語変換部１２６は、編集前文章の中から、ステップＳ１９で選択した単語の１つ前にある前単語と１つ後にある後単語とを特定する。ここで特定する前単語および後単語は、名詞、動詞、形容詞または形容動詞とする。

（Ｓ２１）単語変換部１２６は、単語辞書テーブル１３１から、選択した単語と品詞が同一であり、かつ、選択した単語よりも指定された印象軸の印象スコアが高い単語を検索する。検索された２以上の単語が、変換元単語と置換し得る変換候補単語となる。

（Ｓ２２）単語変換部１２６は、検索された変換候補単語を１つ選択する。
（Ｓ２３）単語変換部１２６は、ステップＳ２０で特定した前単語および後単語とステップＳ２２で選択した変換候補単語とを組み合わせて、（前単語，変換候補単語，後単語）の３－ｇｒａｍを生成する。また、単語変換部１２６は、過去文書データベース１２２から、ステップＳ１５で指定されたブランドの過去文書に対応する単語列テーブルを選択する。単語変換部１２６は、選択した単語列テーブルから、生成した３－ｇｒａｍを検索して当該３－ｇｒａｍの尤度を算出する。尤度は出現頻度を表す。

例えば、単語変換部１２６は、選択した単語列テーブルから、中心単語がステップＳ２２の変換候補単語である３－ｇｒａｍの個数をカウントし、そのうち前単語および後単語も一致する３－ｇｒａｍの個数をカウントする。単語変換部１２６は、前者の個数に対する後者の個数の割合を、３－ｇｒａｍの尤度として算出する。ただし、（前単語，変換候補単語，後単語）と単語列テーブルの３－ｇｒａｍとを対比するにあたり、前単語と後単語の位置を入れ替えた３－ｇｒａｍを同一単語列とみなしてもよい。また、前単語と中心単語と後単語の位置を任意に入れ替えた３－ｇｒａｍを同一単語列とみなしてもよい。

（Ｓ２４）単語変換部１２６は、ステップＳ２３で算出した尤度が閾値を超えるか判断する。閾値は、３％のように予め決めておく。尤度が閾値を超える場合はステップＳ２６に進み、尤度が閾値以下である場合はステップＳ２５に進む。

（Ｓ２５）単語変換部１２６は、選択した変換単語候補を不採用とする。
（Ｓ２６）単語変換部１２６は、ステップＳ２２において全ての変換候補単語を選択したか判断する。全ての変換候補単語を選択した場合はステップＳ２７に進み、未選択の変換候補単語がある場合はステップＳ２２に戻る。

（Ｓ２７）単語変換部１２６は、ステップＳ１９において変換元単語の全ての出現位置を選択したか判断する。全ての出現位置を選択した場合はステップＳ２８に進み、未選択の出現位置がある場合はステップＳ１９に戻る。

（Ｓ２８）単語変換部１２６は、変換元単語の出現位置毎に、ステップＳ２３で算出された尤度が最大の変換候補単語を採用する。スコア算出部１２５は、単語辞書テーブル１３１から、採用された変換候補単語に対応付けられている１３個の印象軸の印象スコアを検索する。スコア算出部１２５は、１３個の印象軸それぞれについて、編集後文章に含まれる単語の印象スコアを集計して、編集対象の文書全体に対する印象スコアを更新する。なお、採用すべき変換候補単語が存在しない変換元単語については置換しなくてよい。

（Ｓ２９）ユーザ通信部１２３は、編集前文章と編集後文章と１３個の印象軸の印象スコアの分布とを含む編集画面を表示させる。印象スコアの分布は、例えば、一覧表やレーダーチャートとして可視化される。ユーザ通信部１２３は、表示装置１１１に編集画面を表示させてもよいし、他の情報処理装置に編集画面データを送信してもよい。

図９は、編集画面の第１の例を示す図である。
編集画面１４１は、表示装置１１１または他の情報処理装置の表示装置に表示される。編集画面１４１は、タイトルを入力する入力欄とブランドを指定する選択欄とを含む。また、編集画面１４１は、編集前文章を表示するテキスト欄と編集後文章を表示するテキスト欄とを含む。ただし、編集画面１４１ではまだ編集が行われていないため、編集後文章のテキスト欄が空となっている。編集前文章のテキスト欄では、印象スコアが付与されているキーワードが強調表示される。また、編集画面１４１は、編集前文章に対する１３個の印象軸の印象スコアを示すレーダーチャートを含む。

ここでは、季節感＝１、オーソドックス感＝２、冒険感＝２、トレンド感＝３、かわいい感＝３、かっこいい感＝２、モテ感＝３、高級感＝１、快適感＝３、特別感＝１、着こなし＝４、オフ＝２、オン＝４と評価されている。ユーザは、強調したい印象軸を選択して、文章の自動修正を文書処理装置１００に指示することができる。ここでは、ユーザが印象軸「かわいい感」を選択して文章修正を指示したとする。

図１０は、編集画面の第２の例を示す図である。
編集画面１４２は、前述の編集画面１４１の後に、表示装置１１１または他の情報処理装置の表示装置に表示される。編集画面１４２の編集後文章のテキスト欄には、一部のキーワードが編集前文章から置換された編集後文章が表示される。編集後文章のテキスト欄では、置換されたキーワードとその前後の単語とを含む３－ｇｒａｍが強調表示される。また、編集画面１４２のレーダーチャートは、編集後文章に対する１３個の印象軸の印象スコアを示すように更新されている。レーダーチャートでは、指定された印象軸の印象スコアが文章修正の前後でどの様に変化したかが強調表示される。ユーザは、更に強調したい他の印象軸がある場合、文章の自動修正を更に指示することができる。

図１１は、編集画面の第３の例を示す図である。
編集画面１４３は、編集画面１４２に代えて、表示装置１１１または他の情報処理装置の表示装置に表示することができる。編集画面１４２では、ある変換元単語が、尤度が最大の変換候補単語に自動的に置換されている。これに対して編集画面１４３では、尤度が最大の変換候補単語以外の他の変換候補単語がユーザに提示され、ユーザが変換候補単語を変更できるようにする。ユーザに提示される他の変換候補単語は、前述のステップＳ２５で不採用とならずに残った変換候補単語のうち、尤度が最大のもの以外である。

例えば、「きれいめ」が「フェミニン」に置換されている場合に、「フェミニン」以外の選択肢として「女性的」がユーザに提示される。他の選択肢である単語「女性的」は、採用された単語「フェミニン」よりも尤度が低いものの、変換前の単語「きれいめ」よりも印象軸「かわいい感」の印象スコアが高くなる単語である。ユーザは、他の変換候補単語を選択することで、編集後文章のキーワードを置換することができる。

第２の実施の形態の文書処理装置１００によれば、執筆担当者が作成した文章が分析され、文章に含まれるキーワードに基づいて複数の印象軸の観点から印象スコアが算出され、複数の印象軸の印象スコアの分布が編集担当者に提示される。よって、文章から受ける印象が書き手の意図したものとなっているか確認することが容易となる。また、編集担当者が印象スコアの不足している印象軸を指定すると、一部のキーワードが置換されて、指定の印象軸の印象スコアが高くなる文章推敲案が編集担当者に提示される。よって、所望の印象が強調された文章になるよう推敲する編集作業が効率化される。

また、文章から選択される変換元単語は、指定の印象軸の印象スコアが低く、かつ、品詞が形容詞または形容動詞であるキーワードに限定される。よって、説明対象の特徴が変わってしまう意味違反のリスクを低減でき、印象の変更を効率的に実現できる。また、文章から選択される変換元単語は、他の印象軸の印象スコアが小さいものに限定される。よって、他の印象軸の印象が意図せず弱くなってしまうリスクを低減できる。

また、変換元単語と置換され得る変換候補単語は、その前後の周辺語と組み合わせた３－ｇｒａｍの尤度に基づいて絞り込まれる。よって、出現頻度が低い不自然な表現に変換されるのを抑制でき、文脈上自然な文章を生成することが可能となる。また、３－ｇｒａｍの尤度は、編集対象の文章と同じカテゴリの過去文書に基づいて算出される。よって、変換後の表現が自然か不自然かを高精度に判定することができる。その結果、所望の印象を強化した文章を高精度に生成することが可能となる。

１０文書処理装置
１１記憶部
１２処理部
１３単語辞書
１４，１５文書

Claims

コンピュータに、
単語に対して当該単語がもつ印象のレベルを示すスコアを対応付けた単語辞書を参照して、評価対象の第１の文書に含まれる第１の単語に対する第１のスコアを算出し、
前記単語辞書から、前記第１のスコアより高い印象のレベルを示す第２のスコアがそれぞれ対応付けられた複数の第２の単語を検索し、
前記第１の文書と異なる第２の文書を用いて、前記複数の第２の単語それぞれに対して、前記第１の単語から前記第１の文書の中で所定範囲内にある第３の単語と当該第２の単語とを組み合わせた単語列の出現頻度を算出し、
前記複数の第２の単語それぞれに対して算出した前記出現頻度に基づいて、前記複数の第２の単語のうち前記第１の単語と置換する第２の単語を選択する、
処理を実行させる文書処理プログラム。
前記コンピュータに更に、前記第１の文書に含まれる複数の単語のうち、スコアが閾値未満の単語を前記第１の単語として選択する処理を実行させる、
請求項１記載の文書処理プログラム。
前記コンピュータに更に、前記第１の文書に含まれる複数の単語のうち、品詞が形容詞または形容動詞である単語を前記第１の単語として選択する処理を実行させる、
請求項１記載の文書処理プログラム。
前記単語辞書は、単語に対して当該単語がもつ他の印象のレベルを示す他のスコアを更に対応付けており、
前記コンピュータに更に、前記第１の文書に含まれる複数の単語のうち、他のスコアが閾値未満の単語を前記第１の単語として選択する処理を実行させる、
請求項１記載の文書処理プログラム。
前記出現頻度の算出では、前記第１の文書から、前記第１の単語の前にある前単語と前記第１の単語の後にある後単語とを前記第３の単語として抽出し、前記前単語と前記複数の第２の単語の１つと前記後単語との組に対して前記出現頻度を算出する、
請求項１記載の文書処理プログラム。
前記コンピュータに更に、前記第１の単語を、前記複数の第２の単語のうち前記出現頻度が最大の第２の単語に置換し、置換後の前記第１の文書を出力する処理を実行させる、
請求項１記載の文書処理プログラム。
前記出現頻度の算出では、前記第１の文書のカテゴリの指定を受け付け、複数のカテゴリに対応する複数の第２の文書のうち、前記第１の文書のカテゴリに対応する第２の文書を用いて前記出現頻度を算出する、
請求項１記載の文書処理プログラム。
コンピュータが、
単語に対して当該単語がもつ印象のレベルを示すスコアを対応付けた単語辞書を参照して、評価対象の第１の文書に含まれる第１の単語に対する第１のスコアを算出し、
前記単語辞書から、前記第１のスコアより高い印象のレベルを示す第２のスコアがそれぞれ対応付けられた複数の第２の単語を検索し、
前記第１の文書と異なる第２の文書を用いて、前記複数の第２の単語それぞれに対して、前記第１の単語から前記第１の文書の中で所定範囲内にある第３の単語と当該第２の単語とを組み合わせた単語列の出現頻度を算出し、
前記複数の第２の単語それぞれに対して算出した前記出現頻度に基づいて、前記複数の第２の単語のうち前記第１の単語と置換する第２の単語を選択する、
文書処理方法。
単語に対して当該単語がもつ印象のレベルを示すスコアを対応付けた単語辞書と、評価対象の第１の文書と異なる第２の文書とを記憶する記憶部と、
前記単語辞書を参照して、前記第１の文書に含まれる第１の単語に対する第１のスコアを算出し、前記単語辞書から、前記第１のスコアより高い印象のレベルを示す第２のスコアがそれぞれ対応付けられた複数の第２の単語を検索し、前記第２の文書を用いて、前記複数の第２の単語それぞれに対して、前記第１の単語から前記第１の文書の中で所定範囲内にある第３の単語と当該第２の単語とを組み合わせた単語列の出現頻度を算出し、前記複数の第２の単語それぞれに対して算出した前記出現頻度に基づいて、前記複数の第２の単語のうち前記第１の単語と置換する第２の単語を選択する処理部と、
を有する文書処理装置。