JP2019056954A - 情報処理装置及び情報処理プログラム - Google Patents

情報処理装置及び情報処理プログラム Download PDF

Info

Publication number
JP2019056954A
JP2019056954A JP2017179319A JP2017179319A JP2019056954A JP 2019056954 A JP2019056954 A JP 2019056954A JP 2017179319 A JP2017179319 A JP 2017179319A JP 2017179319 A JP2017179319 A JP 2017179319A JP 2019056954 A JP2019056954 A JP 2019056954A
Authority
JP
Japan
Prior art keywords
abbreviation
name
organization
information processing
information group
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2017179319A
Other languages
English (en)
Inventor
元樹 谷口
Motoki Taniguchi
元樹 谷口
大熊 智子
Tomoko Okuma
智子 大熊
友紀 谷口
Tomonori Taniguchi
友紀 谷口
翔太郎 三沢
Shotaro Misawa
翔太郎 三沢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP2017179319A priority Critical patent/JP2019056954A/ja
Priority to US15/969,782 priority patent/US11165737B2/en
Publication of JP2019056954A publication Critical patent/JP2019056954A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/52User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail for supporting social networking services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/107Computer-aided management of electronic mailing [e-mailing]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/21Monitoring or handling of messages
    • H04L51/216Handling conversation history, e.g. grouping of messages in sessions or threads
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/21Monitoring or handling of messages
    • H04L51/222Monitoring or handling of messages using geographical location information, e.g. messages transmitted or received in proximity of a certain spot or area
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/48Message addressing, e.g. address format or anonymous messages, aliases

Abstract

【課題】予め定められた変換ルールを用いることなく、略称が用いられている情報群から、略称を抽出し、正式名称と対応付けることができる情報処理装置を提供する。【解決手段】情報処理装置の取得手段は、略称が用いられている情報群を取得し、特定手段は、取得した前記情報群の種別から前記情報群において前記略称が用いられている位置を特定し、第1の抽出手段は、特定した前記位置から前記略称を抽出し、第2の抽出手段は、前記情報群に関する人物に基づいて、正式名称を抽出し、対応付手段は、前記略称と前記正式名称を対応付ける。【選択図】図1

Description

本発明は、情報処理装置及び情報処理プログラムに関する。
特許文献1には、正式名称から各利用者に対応した略称を簡単に短時間で自動的に作成することを課題とし、各単語に対する1種類又は複数種類の略称ルールを記憶する略称ルールデータベースを設け、利用者の指示に基づいて略称ルールデータベースに記憶された略称ルールを指定し、この状態において、利用者を特定した正式名称が入力されると、この正式名称を複数の単語に分解し、そして、分解された複数の単語を略称ルールデータベースに記憶された当該利用者(利用者ID)に指定された略称ルールに基づいて単語単位の単位略称を作成し、最後に、この作成された各単位略称を結合して正式名称の略称とすることが開示されている。
特許文献2には、メール誤配信防止システムは、組織の公開情報を参照し、前記公開情報から組織名及び組織ドメイン名を抽出し、前記組織名と前記組織ドメイン名との対応表である組織名・ドメイン名対応リストを更新する組織名・ドメイン名対応リスト管理手段と、メールを取得した際、前記メールの文頭に明記された宛先組織名、及び前記メールの宛先メールアドレスに含まれる宛先ドメイン名を取得し、前記組織名・ドメイン名対応リストを参照し、前記宛先組織名及び前記宛先ドメイン名が前記組織名及び前記組織ドメイン名と合致するか照合し、照合の結果、合致していれば前記メールの送信を許可し、合致していなければ前記メールの送信を許可せずに警告通知を行う照合手段とを具備することが開示されている。
特許文献3には、正式名称判定システムは、文書データ中から固有名詞の略称を取得する略称取得部と、固有名詞を示す情報を記憶する固有名詞記憶部と、前記固有名詞記憶部から前記略称を構成する文字情報を有する固有名詞を候補名称として抽出する候補名称抽出部と、前記候補名称において判定対象となる文字の位置に応じて略称を生成する際の傾向を示すポイントが予め定められた単一の文字位置ポイントテーブルと、前記候補名称に含まれている前記略称を構成する文字情報の位置に応じて、前記略称に対応する正式名称を判定する判定部と、を備え、前記判定部は、前記候補名称抽出部で抽出した候補名称を単語に分割する手段と、前記略称を構成する文字情報の各々が、前記分割した単語中において何文字目の位置に含まれているかを判定し、当該判定した位置が何文字目であるかに応じて前記文字位置ポイントテーブルから対応するポイントを取得し、当該取得したポイントに基づいて前記略称に対応する正式名称を判定する手段と、を備えることが開示されている。
特開2008−077335号公報 特許第4998302号公報 特許第5443788号公報
例えば、組織名等を記載する場合、正式名称ではなく略称が使用されることがある。略称が用いられた文章を解析等する場合、略称から正式名称に変換すること、又は、逆に正式名称から略称に変換することが必要である。そのため、予め定められたルールを用いて、正式名称から略称に変換すること等が行われている。しかし、略称は、現実に使用されて初めて認知されるものであり、それらを全て網羅したルールを生成することは困難である。
そこで、本発明は、予め定められた変換ルールを用いることなく、略称が用いられている情報群から、略称を抽出し、正式名称と対応付けることができる情報処理装置及び情報処理プログラムを提供することを目的としている。
かかる目的を達成するための本発明の要旨とするところは、次の各項の発明に存する。
請求項1の発明は、略称が用いられている情報群を取得する取得手段と、取得した前記情報群の種別から前記情報群において前記略称が用いられている位置を特定する特定手段と、特定した前記位置から前記略称を抽出する第1の抽出手段と、前記情報群に関する人物に基づいて、正式名称を抽出する第2の抽出手段と、前記略称と前記正式名称を対応付ける対応付手段を有する情報処理装置である。
請求項2の発明は、前記略称は、組織名の略称であり、前記正式名称は、正式な組織名である、請求項1に記載の情報処理装置である。
請求項3の発明は、前記第2の抽出手段は、前記人物が属している組織を正式名称として抽出する、請求項2に記載の情報処理装置である。
請求項4の発明は、前記情報群は、電子メールであり、前記情報群に関する人物は、前記電子メールの送信者である、請求項1に記載の情報処理装置である。
請求項5の発明は、前記第1の抽出手段は、前記電子メール内の挨拶文から略称を抽出し、前記第2の抽出手段は、前記送信者が属している組織を正式名称として抽出する、請求項4に記載の情報処理装置である。
請求項6の発明は、前記情報群は、文書であり、前記情報群に関する人物は、前記文書の作成者である、請求項1に記載の情報処理装置である。
請求項7の発明は、前記第1の抽出手段は、前記文書内の予め定められた箇所から略称を抽出し、前記第2の抽出手段は、前記作成者が属している組織を正式名称として抽出する、請求項6に記載の情報処理装置である。
請求項8の発明は、前記情報群は、会話履歴であり、前記情報群に関する人物は、前記会話の当事者である、請求項1に記載の情報処理装置である。
請求項9の発明は、前記第1の抽出手段は、前記会話履歴内の予め定められた文字列から略称を抽出し、前記第2の抽出手段は、前記当事者が属している組織を正式名称として抽出する、請求項8に記載の情報処理装置である。
請求項10の発明は、前記第1の抽出手段は、複数の略称を抽出できる場合は、記載された順番が予め定められた順番にある略称を抽出すること、該略称の文字数に応じて抽出すること、前記第2の抽出手段が抽出した正式名称と類似している略称を抽出することのいずれかを行う、請求項1に記載の情報処理装置である。
請求項11の発明は、前記第2の抽出手段は、複数の正式名称を抽出できる場合は、前記人物が正式名称である組織に所属した日付に基づいて抽出すること、該人物の主となる組織に基づいて抽出すること、前記第1の抽出手段が抽出した略称と類似する正式名称を抽出することのいずれかを行う、請求項1に記載の情報処理装置である。
請求項12の発明は、コンピュータを、略称が用いられている情報群を取得する取得手段と、取得した前記情報群の種別から前記情報群において前記略称が用いられている位置を特定する特定手段と、特定した前記位置から前記略称を抽出する第1の抽出手段と、前記情報群に関する人物に基づいて、正式名称を抽出する第2の抽出手段と、前記略称と前記正式名称を対応付ける対応付手段として機能させるための情報処理プログラムである。
請求項1の情報処理装置によれば、予め定められた変換ルールを用いることなく、略称が用いられている情報群から、略称を抽出し、正式名称と対応付けることができる。
請求項2の情報処理装置によれば、組織名の略称と正式な名称を対象とした処理を行うことができる。
請求項3の情報処理装置によれば、人物が属している組織を正式名称として用いることができる。
請求項4の情報処理装置によれば、電子メールを対象とし、情報群に関する人物を、電子メールの送信者とすることができる。
請求項5の情報処理装置によれば、電子メール内の挨拶文から略称を抽出し、送信者が属している組織を正式名称として抽出することができる。
請求項6の情報処理装置によれば、文書を対象とし、情報群に関する人物を、文書の作成者とすることができる。
請求項7の情報処理装置によれば、文書内の予め定められた箇所から略称を抽出し、その文書の作成者が属している組織を正式名称として抽出することができる。
請求項8の情報処理装置によれば、会話履歴を対象とし、情報群に関する人物を、会話の当事者とすることができる。
請求項9の情報処理装置によれば、会話履歴内の予め定められた文字列から略称を抽出し、その会話の当事者が属している組織を正式名称として抽出することができる。
請求項10の情報処理装置によれば、複数の略称を抽出できる場合であっても、1つの略称を抽出できるようになる。
請求項11の情報処理装置によれば、複数の正式名称を抽出できる場合であっても、1つの正式名称を抽出できるようになる。
請求項12の情報処理プログラムによれば、予め定められた変換ルールを用いることなく、略称が用いられている情報群から、略称を抽出し、正式名称と対応付けることができる。
本実施の形態の構成例についての概念的なモジュール構成図である。 本実施の形態を利用したシステム構成例を示す説明図である。 略称記載箇所テーブルのデータ構造例を示す説明図である。 人物所属テーブルのデータ構造例を示す説明図である。 略称・正式名称ペアテーブルのデータ構造例を示す説明図である。 本実施の形態による処理例を示すフローチャートである。 本実施の形態による処理例を示すフローチャートである。 本実施の形態による処理例を示すフローチャートである。 本実施の形態を実現するコンピュータのハードウェア構成例を示すブロック図である。
以下、図面に基づき本発明を実現するにあたっての好適な一実施の形態の例を説明する。
図1は、本実施の形態の構成例についての概念的なモジュール構成図を示している。
なお、モジュールとは、一般的に論理的に分離可能なソフトウェア(コンピュータ・プログラム)、ハードウェア等の部品を指す。したがって、本実施の形態におけるモジュールはコンピュータ・プログラムにおけるモジュールのことだけでなく、ハードウェア構成におけるモジュールも指す。それゆえ、本実施の形態は、それらのモジュールとして機能させるためのコンピュータ・プログラム(コンピュータにそれぞれの手順を実行させるためのプログラム、コンピュータをそれぞれの手段として機能させるためのプログラム、コンピュータにそれぞれの機能を実現させるためのプログラム)、システム及び方法の説明をも兼ねている。ただし、説明の都合上、「記憶する」、「記憶させる」、これらと同等の文言を用いるが、これらの文言は、実施の形態がコンピュータ・プログラムの場合は、記憶装置に記憶させる、又は記憶装置に記憶させるように制御するという意味である。また、モジュールは機能に1対1に対応していてもよいが、実装においては、1モジュールを1プログラムで構成してもよいし、複数モジュールを1プログラムで構成してもよく、逆に1モジュールを複数プログラムで構成してもよい。また、複数モジュールは1コンピュータによって実行されてもよいし、分散又は並列環境におけるコンピュータによって1モジュールが複数コンピュータで実行されてもよい。なお、1つのモジュールに他のモジュールが含まれていてもよい。また、以下、「接続」とは物理的な接続の他、論理的な接続(データの授受、指示、データ間の参照関係、ログイン等)の場合にも用いる。「予め定められた」とは、対象としている処理の前に定まっていることをいい、本実施の形態による処理が始まる前はもちろんのこと、本実施の形態による処理が始まった後であっても、対象としている処理の前であれば、そのときの状況・状態にしたがって、又はそれまでの状況・状態にしたがって定まることの意を含めて用いる。「予め定められた値」が複数ある場合は、それぞれ異なった値であってもよいし、2以上の値(もちろんのことながら、全ての値も含む)が同じであってもよい。また、「Aである場合、Bをする」という記載は、「Aであるか否かを判断し、Aであると判断した場合はBをする」の意味で用いる。ただし、Aであるか否かの判断が不要である場合を除く。また、「A、B、C」等のように事物を列挙した場合は、断りがない限り例示列挙であり、その1つのみを選んでいる場合(例えば、Aのみ)を含む。
また、システム又は装置とは、複数のコンピュータ、ハードウェア、装置等がネットワーク(1対1対応の通信接続を含む)等の通信手段で接続されて構成されるほか、1つのコンピュータ、ハードウェア、装置等によって実現される場合も含まれる。「装置」と「システム」とは、互いに同義の用語として用いる。もちろんのことながら、「システム」には、人為的な取り決めである社会的な「仕組み」(社会システム)にすぎないものは含まない。
また、各モジュールによる処理毎に又はモジュール内で複数の処理を行う場合はその処理毎に、対象となる情報を記憶装置から読み込み、その処理を行った後に、処理結果を記憶装置に書き出すものである。したがって、処理前の記憶装置からの読み込み、処理後の記憶装置への書き出しについては、説明を省略する場合がある。なお、ここでの記憶装置としては、ハードディスク、RAM(Random Access Memory)、外部記憶媒体、通信回線を介した記憶装置、CPU(Central Processing Unit)内のレジスタ等を含んでいてもよい。
本実施の形態である情報処理装置100は、略称とその略称の正式名称を対応付けるものであって、図1の例に示すように、ドキュメントデータベース105、ドキュメント取得モジュール110、略称記載箇所記憶モジュール115、略称記載箇所テキスト取得モジュール120、組織名取得モジュール125、作成者ID取得モジュール130、人物所属データベース135、作成者の所属組織取得モジュール140、略称・正式名称ペア記録モジュール145を有している。
ドキュメントデータベース105は、ドキュメント取得モジュール110と接続されている。ドキュメントデータベース105は、略称が用いられている情報群(以下、ドキュメントともいう)を記憶している。ここで「略称」とは、正式名称を簡略にして記載した文字列をいう。具体的には、正式名称内の文字列の一部を省略して記載した文字列をいう。特に、正式名称として、固有名詞が対象となる。例えば、略称は、組織名(会社名、団体名、部門名等を含む)の略称であってもよい。したがって、この場合の正式名称は、正式な組織名である。
ドキュメント取得モジュール110は、ドキュメントデータベース105、略称記載箇所テキスト取得モジュール120、作成者ID取得モジュール130と接続されている。ドキュメント取得モジュール110は、ドキュメントデータベース105から、略称が用いられている情報群を取得する。
略称記載箇所記憶モジュール115は、略称記載箇所テキスト取得モジュール120と接続されている。略称記載箇所記憶モジュール115は、情報群の種別と略称が記載されている位置を記憶している。例えば、略称記載箇所テーブル300を記憶している。図3は、略称記載箇所テーブル300のデータ構造例を示す説明図である。略称記載箇所テーブル300は、記載箇所ID欄310、種別欄320、略称記載箇所欄330を有している。記載箇所ID欄310は、本実施の形態において、記載箇所を一意に識別するための情報(記載箇所ID:IDentification)を記憶している。種別欄320は、情報群の種別を記憶している。情報群の種別によって、略称が用いられやすい位置が変わるからである。略称記載箇所欄330は、その情報群において、略称が記載されている位置を記憶している。ここでの位置の特定は、物理的位置(例えば、座標で表すことができる位置等)であってもよいし、文字列の中で占める位置(例えば、先頭から予め定められた文字数内であること、最後の段落内であること等)であってもよいし、予め定められた条件を満たす位置(例えば、予め定められた文字列の後に続く文字列等)であってもよい。
例えば、記載箇所ID:K001は、種別が「電子メール」であり、略称記載箇所が「挨拶文」である。電子メール内の挨拶文には送信者の所属組織の略称が書かれやすいからである。
記載箇所ID:K002は、種別が「文書」であり、略称記載箇所が「右上テーブル」(文書の右上に、作成日付、組織名(略称)、作成者等が記載されているテーブル)である。ビジネス文書には作成者の所属組織の略称が特定の位置に書かれやすいからである。例えば、帳票、社内の連絡書等では、フォーム(雛型)が定まっており、所属組織を記載すべき位置が規定されているからである。
記載箇所ID:K003は、種別が「会話履歴」であり、略称記載箇所を予め定められた文字列(例えば、正規表現としての“名前@組織名”)で特定している。くだけた表現が多いコミュニケーションチャネル等では、“名前@組織名”と書かれやすく、その組織名は略称であることが多いからである。
略称記載箇所テキスト取得モジュール120は、ドキュメント取得モジュール110、略称記載箇所記憶モジュール115、組織名取得モジュール125と接続されている。略称記載箇所テキスト取得モジュール120は、ドキュメント取得モジュール110によって取得された情報群の種別から、その情報群において略称が用いられている位置を特定する。そして、略称が記載されているテキストを取得する。
組織名取得モジュール125は、略称記載箇所テキスト取得モジュール120、略称・正式名称ペア記録モジュール145と接続されている。組織名取得モジュール125は、略称記載箇所テキスト取得モジュール120によって特定された位置から略称を抽出する。例えば、固有表現認識技術(固有表現抽出ともいわれ、named entity extraction)等を用いて、組織名の略称を抽出する。
また、組織名取得モジュール125は、略称記載箇所テキスト取得モジュール120によって特定された位置に複数の略称が存在していた場合(つまり、複数の略称を抽出できる場合)は、その中の1つの略称を抽出してもよい。例えば、記載された順番が予め定められた順番(例えば、最初、又は、最後)にある略称を抽出するようにしてもよいし、その略称の文字数が最も長い略称(又は、逆に最も短い略称)を抽出するようにしてもよいし、作成者の所属組織取得モジュール140が抽出した正式名称と類似している略称を抽出するようにしてもよい。ここで類似しているとして、両者間で用いられている同じ文字数で判断(具体的には、同じ文字数が最も多い対を類似していると判断)してもよいし、さらに、その同じ文字が同じ順番に並んでいることとしてもよい。
また、組織名取得モジュール125は、略称記載箇所テキスト取得モジュール120によって特定された位置に複数の略称が存在していた場合は、それらの全ての略称を抽出してもよい。この場合、作成者の所属組織取得モジュール140が抽出した正式名称が1つである場合は、1つの正式名称に対して複数の略称があることになり、略称と正式名称の対も複数(略称の数)あることになる。また、作成者の所属組織取得モジュール140が抽出した正式名称が複数である場合は、略称と正式名称とを比較して、類似している対を選択してもよい。
作成者ID取得モジュール130は、ドキュメント取得モジュール110、作成者の所属組織取得モジュール140と接続されている。作成者ID取得モジュール130は、情報群のメタ情報(例えば、属性情報等を含む)から、対象となっている情報群に関する人物を取得する。例えば、その人物を特定するための識別子(ユーザーID)を取得する。
人物所属データベース135は、作成者の所属組織取得モジュール140と接続されている。人物所属データベース135は、人物が属している正式な組織名を記憶している。具体的には、ユーザーIDとそのユーザーIDの人物が属している正式な組織名とを対応させて記憶している。例えば、人物所属テーブル400を記憶している。図4は、人物所属テーブル400のデータ構造例を示す説明図である。人物所属テーブル400は、ユーザーID欄410、氏名欄420、メールアドレス欄430、所属組織欄440を有している。ユーザーID欄410は、本実施の形態において、ユーザーを一意に識別するための情報(ユーザーID)を記憶している。氏名欄420は、そのユーザーIDのユーザーの氏名を記憶している。メールアドレス欄430は、そのユーザーのメールアドレスを記憶している。所属組織欄440は、そのユーザーの所属している正式な組織名を記憶している。
例えば、ユーザーID:U0011は、氏名が「○○ △△」であり、メールアドレスが「○○△△@FXABCD.co.jp」であり、所属組織が「ABCD部」である。
作成者の所属組織取得モジュール140は、作成者ID取得モジュール130、人物所属データベース135、略称・正式名称ペア記録モジュール145と接続されている。作成者の所属組織取得モジュール140は、情報群に関する人物に基づいて、正式名称を抽出する。ここで「情報群に関する人物」として、その情報群の作成者等がある。また、「正式名称を抽出」する方法として、例えば、ユーザーIDとそのユーザーが属している組織を対応させて記憶しているテーブルを検索して、ユーザーIDから正式名称を抽出してもよいし、情報群内に記載されている正式名称を抽出するようにしてもよい。
また、作成者の所属組織取得モジュール140は、人物が属している組織を正式名称として抽出するようにしてもよい。
そして、作成者の所属組織取得モジュール140は、組織名取得モジュール125によって抽出された略称と、作成者の所属組織取得モジュール140によって抽出された正式名称を対応付ける。
また、作成者の所属組織取得モジュール140は、複数の正式名称を抽出できる場合は、その中の1つの正式名称を抽出してもよい。例えば、対象となっているユーザー(作成者ID取得モジュール130によって取得されたユーザーIDのユーザー)が組織に所属した日付が最も新しい組織を抽出してもよい。もちろんのことながら、この場合、人物所属テーブル400には、組織に所属した日付が付加されている。また、対象となっているユーザーの主となる組織を抽出してもよい。もちろんのことながら、この場合、人物所属テーブル400には、主であるか否か(従であるか否か)を示す情報が付加されている。また、略称と類似する正式名称を抽出してもよい。前述したように、組織名取得モジュール125で行う、略称と正式名称の類似判断と同等の処理を行えばよい。また、情報群が電子メールである場合は、受信者の属している組織と同じ(又は類似している)組織を選択してもよい。また、情報群が文書である場合は、報告先の属している組織と同じ(又は類似している)組織を選択してもよい。また、情報群が会話履歴である場合は、会話相手の属している組織と同じ(又は類似している)組織を選択してもよい。
また、作成者の所属組織取得モジュール140は、複数の正式名称を抽出した場合は、それらの全ての正式名称を抽出してもよい。この場合、組織名取得モジュール125が抽出した略称(1つであってもよいし、複数であってもよい)と正式名称とを比較して、類似している対を選択してもよい。前述したように、組織名取得モジュール125で行う略称と正式名称の類似判断と同等の処理を行えばよい。
略称・正式名称ペア記録モジュール145は、組織名取得モジュール125、作成者の所属組織取得モジュール140と接続されている。略称・正式名称ペア記録モジュール145は、作成者の所属組織取得モジュール140によって対応付けられた略称と正式な名称とのペアを記憶している。例えば、略称・正式名称ペアテーブル500を記憶している。図5は、略称・正式名称ペアテーブル500のデータ構造例を示す説明図である。略称・正式名称ペアテーブル500は、対応ID欄510、略称欄520、正式名称欄530を有している。対応ID欄510は、本実施の形態において、略称と正式名称のペアを一意に識別するための情報(対応ID)を記憶している。略称欄520は、略称を記憶している。正式名称欄530は、その略称の本来の正式名称を記憶している。
例えば、対応ID:R001は、略称が「AB部」であり、正式名称が「ABCD部」である。
例えば、情報群として、電子メールを対象としてもよい。この場合、情報群に関する人物は、その電子メールの送信者である。
組織名取得モジュール125は、電子メール内の挨拶文から略称を抽出する。
そして、作成者の所属組織取得モジュール140は、その電子メールの送信者が属している組織を正式名称として抽出する。
また、例えば、情報群として、文書を対象としてもよい。この場合、情報群に関する人物は、その文書の作成者である。
組織名取得モジュール125は、文書内の予め定められた箇所から略称を抽出する。ここで「予め定められた箇所」として、文書内の作成者が記載されている欄等を用いればよい。
作成者の所属組織取得モジュール140は、その文書の作成者が属している組織を正式名称として抽出する。
また、例えば、情報群として、会話履歴を対象としてもよい。この場合、情報群に関する人物は、その会話の当事者(会話者)である。
組織名取得モジュール125は、その会話履歴内の予め定められた文字列から略称を抽出する。ここで「予め定められた文字列」として、例えば、正規表現を用いて記載された文字列群がある。
作成者の所属組織取得モジュール140は、その会話の当事者が属している組織を正式名称として抽出する。
図2は、本実施の形態を利用したシステム構成例を示す説明図である。
情報処理装置100、ユーザー端末210A、ユーザー端末210B、メールサーバー220、文書管理装置230、コミュニケーション処理装置240は、通信回線290を介してそれぞれ接続されている。通信回線290は、無線、有線、これらの組み合わせであってもよく、例えば、通信インフラとしてのインターネット、イントラネット等であってもよい。また、情報処理装置100、メールサーバー220、文書管理装置230、コミュニケーション処理装置240による機能は、クラウドサービスとして実現してもよい。
メールサーバー220、文書管理装置230、コミュニケーション処理装置240は、ユーザー端末210によって利用されている。例えば、ユーザー端末210Aからユーザー端末210Bに電子メールを送信する場合、その電子メールはメールサーバー220を経由することになるので、メールサーバー220は電子メールを収集することができる。また、文書管理装置230は、ユーザー端末210から文書の格納依頼を受け取って、文書を格納し、閲覧等のサービスを提供する。したがって、文書管理装置230は文書を収集することができる。ここで、文書(ファイルとも言われる)とは、テキストデータ、数値データ、図形データ、画像データ、動画データ、音声データ等、又はこれらの組み合わせであり、記憶、編集及び検索等の対象となり、システム又は利用者間で個別の単位として交換できるものをいい、これらに類似するものを含む。具体的には、文書作成プログラムによって作成された文書、画像読取装置(スキャナ等)で読み込まれた画像、Webページ等を含む。また、ユーザー端末210Aとユーザー端末210Bの間で、コミュニケーション処理装置240を用いた会話が行われた場合、その会話履歴はコミュニケーション処理装置240に記録されることになる。会話として、例えば、チャットシステム、SNS(Social Networking Service)での対話(トーク、ダイレクトコメント等)等があり、1対1で行う会話の他に、グループで行う会話も含む。
例えば、メールサーバー220が、対象となる電子メールを収集し、情報処理装置100のドキュメントデータベース105に格納する。また、文書管理装置230が、対象となる文書を収集し、情報処理装置100のドキュメントデータベース105に格納する。また、コミュニケーション処理装置240が、対象となる会話履歴を収集し、情報処理装置100のドキュメントデータベース105に格納する。
また、情報処理装置100のドキュメント取得モジュール110が、メールサーバー220、文書管理装置230、コミュニケーション処理装置240から情報群としての電子メール情報、文書、会話履歴を収集するようにしてもよい。この場合、ドキュメントデータベース105を不要としてもよい。
略称から正式名称に変換するため、又は、逆に正式名称から略称に変換するための変換ルールを用いることが行われている。しかし、前述したように、略称は、現実に使用されて初めて認知されるものである。したがって、全ての組み合わせを反映した変換ルールを生成すること自体が困難である。
情報処理装置100は、実際に略称が用いられている電子メール、文書、会話情報から、略称を抽出し、正式名称と対応付けることを行う。そして、この略称と正式名称の対が、略称から正式名称に変換するため、又は、正式名称から略称に変換するために用いられる。具体的には、フロントエンドプロセッサ(FEP:Front‐End Processor)、インプットメソッドエディタ(IME:Input Method Editor)、かな漢字変換ソフトウェア等に用いる変換辞書にそのまま利用してもよい(つまり、変換ルールとしてもよいし、その変換ルールの一部を形成するものとしてもよい)し、機械学習用の教師データとして用いるようにしてもよい。
図6は、本実施の形態による処理例を示すフローチャートである。対象とする情報群を電子メールとした場合の処理例を示すものである。
ステップS602では、ドキュメント取得モジュール110は、対象となる電子メールを取得する。
ステップS604では、作成者ID取得モジュール130は、送信者ID(メールアドレスであってもよい)を取得する。例えば、電子メールのヘッダ内のFrom部分から送信者IDを取得する。
ステップS606では、作成者の所属組織取得モジュール140は、送信者の所属する組織名を取得する。具体的には、人物所属テーブル400を用いて、送信者ID(ユーザーID)に対応する所属組織を取得する。また、ここでは、人物所属テーブル400を用いずに、電子メールの本文内の署名欄から所属組織を取得してもよい。
ステップS608では、略称記載箇所テキスト取得モジュール120は、挨拶文等を取得する。具体的には、略称記載箇所テーブル300を用いて、電子メールの本文内の挨拶文等を抽出する。例えば、「お疲れさまです。AB部の○○と申します。」という挨拶文を抽出する。
ステップS610では、組織名取得モジュール125は、略称である組織名を抽出する。具体的には、ステップS608で取得した挨拶文から組織名の略称を抽出する。前述した固有表現認識技術を利用すればよい。
ステップS612では、作成者の所属組織取得モジュール140は、ステップS606で取得した正式な組織名とステップS610で抽出した略称を用いて、略称・正式名称のペアを作成する。
ステップS602の次に、ステップS604、ステップS608を行う。
ステップS604とステップS606の正式名称の抽出処理と、ステップS608とステップS610の略称の抽出処理は、いずれを先に行ってもよいし、並行して行ってもよい。
図7は、本実施の形態による処理例を示すフローチャートである。対象とする情報群を文書とした場合の処理例を示すものである。
ステップS702では、ドキュメント取得モジュール110は、対象となる文書を取得する。
ステップS704では、作成者ID取得モジュール130は、文書のプロパティ(属性)から作成者IDを取得する。
ステップS706では、作成者の所属組織取得モジュール140は、作成者の所属する組織名を取得する。具体的には、人物所属テーブル400を用いて、作成者ID(ユーザーID)に対応する所属組織を取得する。
ステップS708では、略称記載箇所テキスト取得モジュール120は、略称記載箇所を取得する。具体的には、略称記載箇所テーブル300を用いて、文書内の右上にあるテーブル等を抽出する。
ステップS710では、組織名取得モジュール125は、略称である組織名を抽出する。具体的には、ステップS708で取得したテーブルから予め定められた行(例えば、2行目等、又は、「所属組織」と記載された行)から組織名の略称を抽出する。
ステップS712では、作成者の所属組織取得モジュール140は、ステップS706で取得した正式な組織名とステップS710で抽出した略称を用いて、略称・正式名称のペアを作成する。
ステップS702の次に、ステップS704、ステップS708を行う。
ステップS704とステップS706の正式名称の抽出処理と、ステップS708とステップS710の略称の抽出処理は、いずれを先に行ってもよいし、並行して行ってもよい。
図8は、本実施の形態による処理例を示すフローチャートである。対象とする情報群を会話履歴とした場合の処理例を示すものである。
ステップS802では、ドキュメント取得モジュール110は、対象となる会話の履歴を取得する。
ステップS804では、作成者ID取得モジュール130は、会話履歴からユーザーIDを取得する。具体的には、その会話履歴内の会話を行っていたユーザーのユーザーID(コミュニケーション処理装置240に登録されているユーザーID)を取得すればよい。
ステップS806では、作成者の所属組織取得モジュール140は、ユーザーの所属する組織名を取得する。具体的には、人物所属テーブル400を用いて、ユーザーIDに対応する所属組織を取得する。
ステップS808では、略称記載箇所テキスト取得モジュール120は、名前@組織名で抽出する。具体的には、略称記載箇所テーブル300を用いて、会話履歴内から正規表現としての“名前@組織名”(「名前」はユーザー名、その後に「@」がある文字列)を抽出する。
ステップS810では、組織名取得モジュール125は、組織名を抽出する。具体的には、正規表現の“名前@組織名”に合致する文字列内の「組織名」部分を抽出すればよい。
ステップS812では、作成者の所属組織取得モジュール140は、ステップS806で取得した正式な組織名とステップS810で抽出した略称を用いて、略称・正式名称のペアを作成する。
ステップS802の次に、ステップS804、ステップS808を行う。
ステップS804とステップS806の正式名称の抽出処理と、ステップS808とステップS810の略称の抽出処理は、いずれを先に行ってもよいし、並行して行ってもよい。
なお、本実施の形態としてのプログラムが実行されるコンピュータのハードウェア構成は、図9に例示するように、一般的なコンピュータであり、具体的にはパーソナルコンピュータ、サーバーとなり得るコンピュータ等である。つまり、具体例として、処理部(演算部)としてCPU901を用い、記憶装置としてRAM902、ROM903、HD904を用いている。HD904として、例えばハードディスク、SSD(Solid State Drive)を用いてもよい。ドキュメント取得モジュール110、略称記載箇所テキスト取得モジュール120、組織名取得モジュール125、作成者ID取得モジュール130、作成者の所属組織取得モジュール140等のプログラムを実行するCPU901と、そのプログラムやデータを記憶するRAM902と、本コンピュータを起動するためのプログラム等が格納されているROM903と、ドキュメントデータベース105、略称記載箇所記憶モジュール115、人物所属データベース135、略称・正式名称ペア記録モジュール145としての機能を有する補助記憶装置(フラッシュ・メモリ等であってもよい)であるHD904と、キーボード、マウス、タッチスクリーン、マイク、カメラ(視線検知カメラ等を含む)等に対する利用者の操作(動作、音声、視線等を含む)に基づいてデータを受け付ける受付装置906と、CRT、液晶ディスプレイ、スピーカー等の出力装置905と、ネットワークインタフェースカード等の通信ネットワークと接続するための通信回線インタフェース907、そして、それらをつないでデータのやりとりをするためのバス908により構成されている。これらのコンピュータが複数台互いにネットワークによって接続されていてもよい。
前述の実施の形態のうち、コンピュータ・プログラムによるものについては、本ハードウェア構成のシステムにソフトウェアであるコンピュータ・プログラムを読み込ませ、ソフトウェアとハードウェア資源とが協働して、前述の実施の形態が実現される。
なお、図9に示すハードウェア構成は、1つの構成例を示すものであり、本実施の形態は、図9に示す構成に限らず、本実施の形態において説明したモジュールを実行可能な構成であればよい。例えば、一部のモジュールを専用のハードウェア(例えば特定用途向け集積回路(Application Specific Integrated Circuit:ASIC)等)で構成してもよく、一部のモジュールは外部のシステム内にあり通信回線で接続している形態でもよく、さらに図9に示すシステムが複数互いに通信回線によって接続されていて互いに協調動作するようにしてもよい。また、特に、パーソナルコンピュータの他、携帯情報通信機器(携帯電話、スマートフォン、モバイル機器、ウェアラブルコンピュータ等を含む)、情報家電、ロボット、複写機、ファックス、スキャナ、プリンタ、複合機(スキャナ、プリンタ、複写機、ファックス等のいずれか2つ以上の機能を有している画像処理装置)などに組み込まれていてもよい。
なお、説明したプログラムについては、記録媒体に格納して提供してもよく、また、そのプログラムを通信手段によって提供してもよい。その場合、例えば、前記説明したプログラムについて、「プログラムを記録したコンピュータ読み取り可能な記録媒体」の発明として捉えてもよい。
「プログラムを記録したコンピュータ読み取り可能な記録媒体」とは、プログラムのインストール、実行、プログラムの流通等のために用いられる、プログラムが記録されたコンピュータで読み取り可能な記録媒体をいう。
なお、記録媒体としては、例えば、デジタル・バーサタイル・ディスク(DVD)であって、DVDフォーラムで策定された規格である「DVD−R、DVD−RW、DVD−RAM等」、DVD+RWで策定された規格である「DVD+R、DVD+RW等」、コンパクトディスク(CD)であって、読出し専用メモリ(CD−ROM)、CDレコーダブル(CD−R)、CDリライタブル(CD−RW)等、ブルーレイ・ディスク(Blu−ray(登録商標) Disc)、光磁気ディスク(MO)、フレキシブルディスク(FD)、磁気テープ、ハードディスク、読出し専用メモリ(ROM)、電気的消去及び書換可能な読出し専用メモリ(EEPROM(登録商標))、フラッシュ・メモリ、ランダム・アクセス・メモリ(RAM)、SD(Secure Digital)メモリーカード等が含まれる。
そして、前記のプログラムの全体又はその一部は、前記記録媒体に記録して保存や流通等させてもよい。また、通信によって、例えば、ローカル・エリア・ネットワーク(LAN)、メトロポリタン・エリア・ネットワーク(MAN)、ワイド・エリア・ネットワーク(WAN)、インターネット、イントラネット、エクストラネット等に用いられる有線ネットワーク、又は無線通信ネットワーク、さらにこれらの組み合わせ等の伝送媒体を用いて伝送させてもよく、また、搬送波に乗せて搬送させてもよい。
さらに、前記のプログラムは、他のプログラムの一部分若しくは全部であってもよく、又は別個のプログラムと共に記録媒体に記録されていてもよい。また、複数の記録媒体に分割して記録されていてもよい。また、圧縮や暗号化等、復元可能であればどのような態様で記録されていてもよい。
100…情報処理装置
105…ドキュメントデータベース
110…ドキュメント取得モジュール
115…略称記載箇所記憶モジュール
120…略称記載箇所テキスト取得モジュール
125…組織名取得モジュール
130…作成者ID取得モジュール
135…人物所属データベース
140…作成者の所属組織取得モジュール
145…略称・正式名称ペア記録モジュール
210…ユーザー端末
220…メールサーバー
230…文書管理装置
240…コミュニケーション処理装置
290…通信回線

Claims (12)

  1. 略称が用いられている情報群を取得する取得手段と、
    取得した前記情報群の種別から前記情報群において前記略称が用いられている位置を特定する特定手段と、
    特定した前記位置から前記略称を抽出する第1の抽出手段と、
    前記情報群に関する人物に基づいて、正式名称を抽出する第2の抽出手段と、
    前記略称と前記正式名称を対応付ける対応付手段
    を有する情報処理装置。
  2. 前記略称は、組織名の略称であり、
    前記正式名称は、正式な組織名である、
    請求項1に記載の情報処理装置。
  3. 前記第2の抽出手段は、前記人物が属している組織を正式名称として抽出する、
    請求項2に記載の情報処理装置。
  4. 前記情報群は、電子メールであり、
    前記情報群に関する人物は、前記電子メールの送信者である、
    請求項1に記載の情報処理装置。
  5. 前記第1の抽出手段は、前記電子メール内の挨拶文から略称を抽出し、
    前記第2の抽出手段は、前記送信者が属している組織を正式名称として抽出する、
    請求項4に記載の情報処理装置。
  6. 前記情報群は、文書であり、
    前記情報群に関する人物は、前記文書の作成者である、
    請求項1に記載の情報処理装置。
  7. 前記第1の抽出手段は、前記文書内の予め定められた箇所から略称を抽出し、
    前記第2の抽出手段は、前記作成者が属している組織を正式名称として抽出する、
    請求項6に記載の情報処理装置。
  8. 前記情報群は、会話履歴であり、
    前記情報群に関する人物は、前記会話の当事者である、
    請求項1に記載の情報処理装置。
  9. 前記第1の抽出手段は、前記会話履歴内の予め定められた文字列から略称を抽出し、
    前記第2の抽出手段は、前記当事者が属している組織を正式名称として抽出する、
    請求項8に記載の情報処理装置。
  10. 前記第1の抽出手段は、複数の略称を抽出できる場合は、記載された順番が予め定められた順番にある略称を抽出すること、該略称の文字数に応じて抽出すること、前記第2の抽出手段が抽出した正式名称と類似している略称を抽出することのいずれかを行う、
    請求項1に記載の情報処理装置。
  11. 前記第2の抽出手段は、複数の正式名称を抽出できる場合は、前記人物が正式名称である組織に所属した日付に基づいて抽出すること、該人物の主となる組織に基づいて抽出すること、前記第1の抽出手段が抽出した略称と類似する正式名称を抽出することのいずれかを行う、
    請求項1に記載の情報処理装置。
  12. コンピュータを、
    略称が用いられている情報群を取得する取得手段と、
    取得した前記情報群の種別から前記情報群において前記略称が用いられている位置を特定する特定手段と、
    特定した前記位置から前記略称を抽出する第1の抽出手段と、
    前記情報群に関する人物に基づいて、正式名称を抽出する第2の抽出手段と、
    前記略称と前記正式名称を対応付ける対応付手段
    として機能させるための情報処理プログラム。
JP2017179319A 2017-09-19 2017-09-19 情報処理装置及び情報処理プログラム Pending JP2019056954A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2017179319A JP2019056954A (ja) 2017-09-19 2017-09-19 情報処理装置及び情報処理プログラム
US15/969,782 US11165737B2 (en) 2017-09-19 2018-05-03 Information processing apparatus for conversion between abbreviated name and formal name

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017179319A JP2019056954A (ja) 2017-09-19 2017-09-19 情報処理装置及び情報処理プログラム

Publications (1)

Publication Number Publication Date
JP2019056954A true JP2019056954A (ja) 2019-04-11

Family

ID=65720834

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017179319A Pending JP2019056954A (ja) 2017-09-19 2017-09-19 情報処理装置及び情報処理プログラム

Country Status (2)

Country Link
US (1) US11165737B2 (ja)
JP (1) JP2019056954A (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111695340B (zh) * 2020-06-16 2021-12-28 深圳前海微众银行股份有限公司 一种简称提取方法及装置

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6618717B1 (en) * 2000-07-31 2003-09-09 Eliyon Technologies Corporation Computer method and apparatus for determining content owner of a website
US7236923B1 (en) * 2002-08-07 2007-06-26 Itt Manufacturing Enterprises, Inc. Acronym extraction system and method of identifying acronyms and extracting corresponding expansions from text
JP4816409B2 (ja) * 2006-01-10 2011-11-16 日産自動車株式会社 認識辞書システムおよびその更新方法
JP2008077335A (ja) 2006-09-20 2008-04-03 Toshiba Corp 自動略称作成装置及び自動略称作成プログラム
JP4998302B2 (ja) 2008-02-05 2012-08-15 日本電気株式会社 メール誤配信防止システム、メール誤配信防止方法、及びメール誤配信防止用プログラム
JP5443788B2 (ja) * 2009-03-06 2014-03-19 Sky株式会社 正式名称判定システム及び正式名称判定プログラム
US9811594B2 (en) * 2014-09-09 2017-11-07 Cisco Technology, Inc. Automatic explanation of presented abbreviations

Also Published As

Publication number Publication date
US20190089670A1 (en) 2019-03-21
US11165737B2 (en) 2021-11-02

Similar Documents

Publication Publication Date Title
JP6544131B2 (ja) 情報処理装置及び情報処理プログラム
US20180246569A1 (en) Information processing apparatus and method and non-transitory computer readable medium
US9317501B2 (en) Data security system for natural language translation
JP6612303B2 (ja) ユーザコンタクトエントリのデータ設定
US10318619B2 (en) Information processing apparatus, information processing method, and non-transitory computer readable medium
CN103547980A (zh) 知晓上下文的输入引擎
US20130035929A1 (en) Information processing apparatus and method
TW201205307A (en) Method, apparatus and computer program product for efficiently sharing information
US20150106080A1 (en) Information processing apparatus, information processing method, and non-transitory computer readable medium
US11954173B2 (en) Data processing method, electronic device and computer program product
US20160275059A1 (en) System and method for parallel contract authoring
US20210295033A1 (en) Information processing apparatus and non-transitory computer readable medium
US10956452B2 (en) Information processing apparatus, information processing method, and non-transitory computer readable medium
JP6596848B2 (ja) アクセス権推定装置及びアクセス権推定プログラム
JP2019056954A (ja) 情報処理装置及び情報処理プログラム
US11132646B2 (en) Non-transitory computer-readable medium and email processing device for misrepresentation handling
JP7027757B2 (ja) 情報処理装置及び情報処理プログラム
US11093870B2 (en) Suggesting people qualified to provide assistance with regard to an issue identified in a file
JP6759720B2 (ja) 情報処理装置及び情報処理プログラム
JP2017162138A (ja) 情報処理装置及び情報処理プログラム
US20180307669A1 (en) Information processing apparatus
JP2017045106A (ja) 情報処理装置及び情報処理プログラム
JP2009199254A (ja) 電子メール送信システム、情報処理装置、電子メール送信方法、プログラム、及び記録媒体
JP2019061419A (ja) 情報処理装置及び情報処理プログラム
US20160224678A1 (en) Data analysis and management methods and systems for social networks