CN101853292A - 商业社会网络构建方法及系统 - Google Patents
商业社会网络构建方法及系统 Download PDFInfo
- Publication number
- CN101853292A CN101853292A CN201010184041A CN201010184041A CN101853292A CN 101853292 A CN101853292 A CN 101853292A CN 201010184041 A CN201010184041 A CN 201010184041A CN 201010184041 A CN201010184041 A CN 201010184041A CN 101853292 A CN101853292 A CN 101853292A
- Authority
- CN
- China
- Prior art keywords
- commercial
- sentence
- relations
- commercial entity
- identification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
一种商业社会网络构建方法和系统,该方法包括识别输入的财经新闻中的商业实体;识别句子中商业实体间的商业关系;根据识别的商业实体以及商业实体间的商业关系构建商业社会网络。本发明从大规模财经新闻中自动获取被提及的商业实体以及各商业实体间的商业关系,进而构建商业社会网络,从而快速、全面、实时、准确、智能的完成商业社会网络的构建,准确反映当前商业社会状况,对商业实体进行情报分析和企业决策提供了重要依据,节省了大量时间和费用。
Description
【技术领域】
本发明涉及一种文本挖掘方法和系统,特别是涉及一种商业社会网络构建方法及系统。
【背景技术】
商业社会是一个有机整体,其最活跃实体-企业-并不是独立存在的,它不断地以各种行动与其他企业发生各种各样的商业关系,使商业社会浑然一体,并因经济规律的调节而井然有序。获知商业社会的上述状况对企业至关重要,是企业情报系统的核心。为保持旺盛的生命力,企业无一例外地密切关注商业情报,不惜投入大量人力物力。
固然,通过人工访查、情报搜集等渠道,能够逐步获知商业社会的状况,而人工操作无法克服两个关键问题:
第一是全面性。互联网内容急剧膨胀,信息量浩大无边,有限人力无法确保信息采集的全面性。随着互联网的快速发展,这一问题目益严峻,情报采集已经变成人力远远无法完成的任务。
第二是时效性。商业社会日新月异,商业发展一日千里。这些状况反映在网络内容上,即快速的信息更新。人工操作已暴露出时效性差的问题,情报更新周期越来越长,无法满足迅速发展的商业需要。
财经新闻是商业社会的一个快照,以报道的形式透露出商业实体之间的商业关系。随着信息披露公正性和时效性的不断提高,海量财经新闻能全面、准确地反映出商业社会的基本状况。商业社会网络(CSN)系统即以反映上述基本状况而设计的文本挖掘系统。
【发明内容】
有鉴于此,有必要针对上述问题,提供一种信息全面、实时智能的商业社会网络构建方法。
此外,提供一种信息全面、实时智能的商业社会网络构建系统。
一种商业社会网络构建方法,包括如下步骤:
识别输入的财经新闻中的句子和词汇;
识别句子中的商业实体;
识别句子中商业实体间的商业关系;
根据识别的商业实体以及商业实体间的商业关系构建商业社会网络。
优选的,所述识别输入的财经新闻中的句子和词汇的步骤具体为:以标识语句终结的标点符号判定句子边界;采用双向最大匹配策略判断词汇边界。
优选的,所述识别句子中的商业实体具体包括:
识别句子中商业实体全名;
识别句子中商业实体别名;
识别和解决句子中的商业实体指代现象。
优选的,所述识别句子中商业实体全名的步骤具体为:以字符完全匹配方法从句子中搜索初始构建的商业实体词典中包含的商业实体全名、英文全名、中文缩写、英文缩写或商业实体系统编号中一种或者两种以上。
优选的,所述识别句子中商业实体别名的步骤具体为:以近似匹配算法识别商业实体别名,并以最长匹配策略对其嵌套的商业实体全名进行歧义消解。
优选的,所述近似匹配算法采用隐马尔可夫模型识别商业实体别名;所述隐马尔可夫模型采用概率技术测算商业实体别名与商业实体全名之间的对应概率,取对应概率最大的商业实体全名;
所述隐马尔可夫模型采用如下特征测算对应概率:
别名字符在商业实体全名字符中的位置;
别名字符所在词汇的类型,
优选的,所述识别和解决句子中的商业实体指代现象采取最短距离回溯方法。
优选的,所述识别句子中商业实体间的商业关系采用如下方式:
识别句子中商业关系关键词识别商业关系;
根据商业关系关键词结合其上下文识别商业关系。
优选的,所述识别句子中商业关系关键词具体为:以完全匹配方式从句子中识别初始构建的商业关系关键词词典中包含的商业关系关键词。
优选的,所述根据商业关系关键词结合其上下文识别商业关系具体为:根据商业关系关键词上下文中出现的否定词或起否定效果的句法成分结合商业关系关键词识别商业关系。
优选的,所述根据识别的商业实体以及商业实体间的商业关系构建商业社会网络的步骤具体为:采取图理论,以商业实体为图的节点,以商业关系为图的边,构建商业社会网络。
一种商业社会网络构建系统,包括:
财经新闻处理模块,用于识别输入的财经新闻中的句子和词汇;
商业实体词典,用于存放商业实体的中文全名、英文全名、中文简称、英文缩写以及ID中一种或者两种以上;
商业实体识别模块,用于识别句子中的商业实体;
商业关系关键词词典,用于存放表征商业关系的常用词汇及其表示的商业关系;
商业关系识别模块,用于识别句子中商业实体间的商业关系;
商业社会网络构建模块,根据识别的商业实体以及商业实体间的商业关系构建商业社会网络。
优选的,所述财经新闻处理模块识别财经新闻中的句子和词汇,以标识语句终结的标点符号判定句子边界;采用双向最大匹配策略判断词汇边界。
优选的,所述商业实体识别模块,识别句子中商业实体全名和句子中商业实体别名,识别和解决句子中的商业实体指代现象;
所述商业实体识别模块识别句子中商业实体全名,采用字符完全匹配方式从句子中搜索所述商业实体词典中包含的商业实体全名、英文全名、中文缩写、英文缩写或商业实体系统编号中一种或者两种以上;
所述商业实体识别模块识别商业实体别名,采用近似匹配算法,并以最长匹配策略对商业实体别名嵌套的商业实体全名进行歧义消解。
优选的,所述近似匹配算法采用隐马尔可夫模型识别商业实体别名;
所述隐马尔可夫模型采用概率技术测算商业实体全名与别名之间的对应概率,取对应概率最大的商业实体全名,并采用如下特征测算:
别名字符在商业实体全名字符中的位置;
别名字符所在词汇的类型。
优选的,所述商业关系识别模块识别句子中商业关系关键词识别商业关系;或者根据商业关系关键词结合其上下文识别商业关系;
所述商业关系模块识别句子中商业关系关键词,以完全匹配方式从句子中识别所述商业关系关键词词典中包含的商业关系关键词;
所述商业关系模块根据商业关系关键词上下文中出现的否定词或起否定效果的句法成分结合商业关系关键词识别商业关系。
优选的,所述商业关系网络构建模块采取图理论,以商业实体为图的节点,以商业关系为图的边,构建商业社会网络。
上述商业社会网络构建方法及系统,从大规模财经新闻中自动获取被提及的商业实体以及各商业实体间的商业关系,进而构建商业社会网络,从而快速、全面、实时、准确、智能的完成商业社会网络的构建,准确反映当前商业社会状况,对商业实体进行情报分析和企业决策提供了重要依据,节省了大量时间和费用。
【附图说明】
图1是一个实施例中商业社会网络构建方法流程图;
图2是一个实施例中商业社会网络构建系统结构示意图。
【具体实施方式】
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
图1是一个实施例中商业社会网络构建方法流程图。该商业社会网络构建方法包括:
S11:识别输入的财经新闻(集)中的句子和词汇;
财经新闻通常为以特定编码表示的自由文本。对中文来说,大都采取了GB18030编码标准。该实施例中,主要以GB18030标准为依据,但提供对其他中文编码的兼容性。
为准确识别财经新闻中提及的商业实体和商业关系,需要首先识别财经新闻所对应的自由文本中的句子和词汇,其通过判定自由文本的句子边界和词汇边界来实现。该实施例中,判定句子边界和词汇边界具体为:以标识语句终结的标点符号(句号、分号、问号、感叹号等)来判定句子边界;采用双向最大匹配策略判定词汇边界。
该实施例中,采取双向最大匹配策略判定词汇边界具体为:设定词汇最大长度,从句子两端开始,分别从左到右和从右到左地识别最长词汇,最后取两个结果的并集作为最终分词结果。例如句子“三眼酒店预订已完成”,设定词汇最大长度为5,其正向分词结果为“三亚||洒店预定||已||完成”,逆向分词结果为“三亚酒店||预定||已||完成”,最后取交集,双向分词结果为“三亚||洒店||预定||已||完成”。单向最大匹配容易导致如下错误:若上述例子中句子是有关“三亚酒店”的,由于逆向分词结果将“酒店”与“预订”合起来成为一个词,就直接导致后续无法识别“三亚酒店”这个商业实体名称;同时,若该句子是有关“酒店预定”业务,而与“三亚酒店”无关,由于从正向分词结果将“酒店”与“三亚”合起来成为一个词,后续就再也无法识别“酒店预定”这一业务名称了。双向最大匹配策略能将句子切分为个数最多的词汇,能便于后续商业实体和商业关系的识别。由于后续语言文字处理都是基于词汇的,在双向分词结果“三亚||洒店||预定”的基础上,完全有机会在大量文本的基础上通过统计计算,将“三亚酒店”或“酒店预订”识别出来。但,基于单向分词结果都存在难以更正的错误。
句子边界和词汇边界判定后,财经新闻表示成具有一定顺序的句子和词汇。
S12:识别句子中的商业实体。
构建商业社会网络,需要获知该商业社会中涉及到的商业实体,即要获知财经新闻中所提及的商业实体,其通过识别财经新闻句子中出现的商业实体的名称来完成。该实施例中,识别句子中商业实体具体包括:
(1)识别句子中商业实体全名。
围绕特定商业实体进行报道的财经新闻,在首次提及该商业实体时均采取全名,因此给识别全名提供了重要信息。该实施例中,以完全匹配方式从句子中搜索初始构建的商业实体词典中包含的商业实体全名、英文全名、中文缩写、英文缩写或ID(商业实体系统编号)。若句子中存在全名则直接识别,若存在中文缩写、英文缩写或ID中的一种或者两种,则识别并将其对应变为全名。
其中,商业实体词典包含有商业实体全名、英文全名、中文简称、英文缩写以及编号,由人工方式遵循如下规范编制而成:
ENTITY={
CNAME:char(512);//《中文全名》
ENAME:char(512);//《英文全名》
CSHORT:char(256);//《中文简称》
ESHORT:char(256);//《英文缩写》
ID:char(256);//《编号》
}
若商业实体是上市公司,则其系统编号采取“股市ID_股票代码”格式,否则系统编号采取唯一编码格式。
商业实体全名识别成功后,为后续商业实体别名识别提供重要依据。
(2)识别句子中商业实体别名。
商业实体别名主要是两类:不正确的中文简称或不正确的英文缩写,例如“中国工商银行”的中文简称是“工行”,而其英文缩写是ICBC。中文简称来自全名,而英文缩写来自英文全名。虽然商业实体词典包含了一个中文简称和一个英文缩写,但只是最常用的。而在实际财经新闻中,由于记者习惯的差异,可能采用不同的商业实体简称或缩写,导致一些不正确的简称或缩写。例如,“中国移动股份有限公司”在财经新闻中有时以“中国移动”为简称,有时又以“中移动”为简称。因此需要对财经新闻中出现的商业实体别名进行识别。
该实施例中,采用近似匹配算法识别商业实体别名,并以最长匹配策略对商业实体别名嵌套实体全名进行歧义消解。近似匹配算法通过编辑距离来计算商业实体别名和商业实体全名两字符串的相似度。编辑距离是经典字符串相似性度量方法,它计算从原串转换到目标串所需要的最少的插入、删除和替换的编辑操作次数。编辑操作次数越少,两字符串越相似。最长匹配策略是基于字符串长度的匹配策略。该实施例中,以句子中的连续字符串匹配商业实体词典中的实体全名,最终取匹配到的全名最长的商业实体。
近似匹配算法采用隐马尔可夫模型(HMM),以概率技术测算商业实体全名与别名之间的对应概率对商业实体别名进行识别。HMM采用了如下特征对别名测算对应概率:
(f1)别名字符在商业实体全名字符中的位置;
(f2)别名字符所在词汇的类型(地名、行业名、实体名称后缀)。
识别中,首先采用命名实体识别工具将别名识别出来。但此时并不知道该名称是哪一个商业实体的别名,故根据该别名初步确定多个候选商业实体全名。候选商业实体全名应满足如下条件:
(c1)包含别名中的字符;
(c2)汉字出现先后次序与别名中对应汉字的次序一致。
HMM计算该别名与候选商业实体全名的映射概率,取概率最大者,将别名恢复为商业实体全名。HMM是经典的概率分析模型,不再赘述其原理和公式。
(3)识别和解决句子中的商业实体指代现象。
商业实体识别过程中经常出现指代现象。例如句子“近年来,它一直与中国电信保持密切合作关系。”中的“它”即是一种指代现象。从实际文本中,该句子的前一句是“华为技术有限公司成立于1988年。”,于是获知“它”实际上代表了“华为技术有限公司”。
该实施例中,采取最短距离法解决指代现象,即取前文中出现的第一个商业实体名称作为指代的对象。
在识别商业实体的全名、别名以及指代现象后,即可获得商业实体名称,从而可以识别财经新闻中涉及的商业实体
S13:识别句子中商业实体间的商业关系。
构建商业社会网络,在获知商业社会中涉及到的商业实体后,还需要获知各个商业实体之间的商业关系。该实施例中,识别句子中商业实体间的商业关系包括如下方式:
(1)识别句子中商业关系(合作或竞争)关键词识别商业关系。
商业关系关键词是表征商业关系的标准汉语词汇(该实施例涉及合作或竞争两类商业关系)。识别句子中商业关系关键词,以完全匹配方式从句子中识别商业关系关键词词典中包含的商业关系关键词。
商业关系关键词词典包含表征两类商业关系(合作或竞争)的词汇及其所表征的商业关系,由人工方式遵循如下规范编制而成:
RKEYWORD={
CWORD:char(256);//《关键词》
CRELATION:enum{COO,COM};//COO=合作;COM=竞争
}
(2)根据商业关系关键词结合其上下文识别商业关系。
商业关系关键词的出现表征了商业关系的发生,但仅靠关键词还不能准确识别财经新闻所要描述的确切商业关系。例如,某表征“合作”的关键词被否定词修饰,导致相反的商业关系(即“竞争”)。因此,需要结合商业关系关键词上下文中可能出现的否定词或起否定效果的句法成分才能正确识别商业关系。
该实施例中,采用关键词上下文分析技术识别商业关系。上下文分析技术采用共现分析技术识别两商业实体均出现情况下的商业关系,采取共现分析原理,将含有两个商业实体的语句上下文及商业关系关键词都提取出来进行统计分析和归纳。具体如下:
限定两个商业实体之间的商业关系关键词上下文为语句,在两个层面进行上下文商业关系识别;
(1)词汇层面
采用依存分析工具将语句中词汇间的语法关系分析出来。若商业关系关键词被否定词修饰,则其表征的商业关系发生逆转。
依存分析为浅层句法分析手段,其识别出句子中不同词汇之间的句法依存关系。例如句子“微软公司不会与太阳公司竞争”的依存分析结果是:
其中,root代表句子,HED代表核心动词关系,SBV代表主谓关系,ADV代表状中关系,POB表示介宾关系。由于否定词“不会”修饰了关系关键词“竞争”,起到了置反的作用。因此必须依据依存关系对商业关系进行调整。
本实施例中,在找到关系关键词后,沿着依存关系图,查看是否有否定词修辞该词汇。如果有,则商业关系置反。
(2)句法层面
在句法层面上,起否定作用的句法成分主要有两种:一是反问句,通常以句中反问词和句末问号表征。若发现商业关系关键词所在语句为反问句,则将词法层面的商业关系置反。二是转折复句,以转折或让步连词表征。若发现商业关系关键词所在语句为转折复句的附句,则将词法层面的商业关系置反。
S15:根据识别的商业实体以及商业实体间的商业关系构建商业社会网络。
该实施例中,采取图理论定义商业社会网络为有权无向图:
G=<N,E,W>
其中N代表商业实体,E表示商业关系,W表示商业关系的权重。
以商业实体为图的节点,以商业关系为图的边,构建商业社会网络。
该实施例中,N是商业实体全集,均定义在商业实体词典中;E是商业关系全集,取值为“合作”和“竞争”两类之一;W表示商业关系的频繁程度,以出现次数累积。
此外,提供一种商业社会网络构建系统。
图2是一个实施例中的商业社会网络构建系统结构示意图。该商业社会网络构建系统包括:财经新闻处理模块110,商业实体识别模块120,商业关系识别模块130,商业社会网络构建模块140,财经新闻集150,商业实体词典160,商业关系关键词词典170,商业社会网络180。
财经新闻集150,用于存储用户输入的财经新闻。
财经新闻处理模块110,用于识别输入的财经新闻中的句子和词汇。
财经新闻通常为以特定编码表示的自由文本。对中文来说,大都采取了GB18030编码标准。该实施例中,财经新闻处理模块110对财经新闻进行处理主要以GB18030标准为依据,但提供对其他中文编码的兼容性。
为准确识别财经新闻中提及的商业实体和商业关系,需要首先识别财经新闻所对应的自由文本中的句子和词汇,财经新闻处理模块110通过判定自由文本的句子边界和词汇边界来实现。该实施例中,财经新闻处理模块110以标识语句终结的标点符号(句号、分号、问号、感叹号等)来判定句子边界;采用双向最大匹配策略判定词汇边界。
该实施例中,财经新闻处理模块110采取双向最大匹配策略判定词汇边界具体为:设定词汇最大长度,从句子两端开始,分别从左到右和从右到左地识别最长词汇,最后取两个结果的并集作为最终分词结果。例如句子“三眼酒店预订已完成”,设定词汇最大长度为5,其正向分词结果为“三亚||洒店预定||已||完成”,逆向分词结果为“三亚酒店||预定||已||完成”,最后取交集,双向分词结果为“三亚||洒店||预定||已||完成”。单向最大匹配容易导致如下错误:若上述例子中句子是有关“三亚酒店”的,由于逆向分词结果将“酒店”与“预订”合起来成为一个词,就直接导致后续无法识别“三亚酒店”这个商业实体名称;同时,若该句子是有关“酒店预定”业务,而与“三亚酒店”无关,由于从正向分词结果将“酒店”与“三亚”合起来成为一个词,后续就再也无法识别“酒店预定”这一业务名称了。财经新闻处理模块110采用双向最大匹配策略能将句子切分为个数最多的词汇,能便于后续商业实体和商业关系的识别。由于后续语言文字处理都是基于词汇的,在双向分词结果“三亚||洒店||预定”的基础上,完全有机会在大量文本的基础上通过统计计算,将“三亚酒店”或“酒店预订”识别出来。但,基于单向分词结果都存在难以更正的错误。
句子边界和词汇边界判定后,财经新闻表示成具有一定顺序的句子和词汇。
商业实体识别模块120,用于识别财经新闻句子中提及的商业实体。
构建商业社会网络,需要获知该商业社会中涉及到的商业实体,即要获知财经新闻中所提及的商业实体。商业实体识别模块120通过识别财经新闻句子中出现的商业实体的名称来完成。该实施例中,商业实体识别模块120识别句子中商业实体具体为:
(1)识别句子中商业实体全名。
围绕特定商业实体进行报道的财经新闻,在首次提及该商业实体时均采取全名,因此给全名提供了重要信息。该实施例中,商业实体识别模块120以完全匹配方式从句子中搜索初始构建的商业实体词典160中包含的商业实体全名、英文全名、中文缩写、英文缩写或ID。若句子中存在全名,商业实体识别模块120直接识别,若存在英文全名、中文缩写、英文缩写或ID中的一种或者两种,商业实体识别模块120对其识别并将其对应变为全名。
其中,商业实体词典160包含有商业实体全名、英文全名、中文简称、英文缩写以及编号,由人工方式遵循如下规范编制而成:
ENTITY={
CNAME:char(512);//《中文全名》
ENAME:char(512);//《英文全名》
CSHORT:char(256);//《中文简称》
ESHORT:char(256);//《英文缩写》
ID:char(256);//《编号》
}
若商业实体是上市公司,则其编号采取“股市ID_股票代码”格式,否则采取系统唯一编码格式。
商业实体全名识别成功后,为后续商业实体别名识别提供重要依据。
(2)识别句子中商业实体别名。
商业实体别名主要是两类:不正确的中文简称或不正确的英文缩写,例如“中国工商银行”的中文简称是“工行”,而其英文缩写是ICBC。中文简称来自全名,而英文缩写来自英文全名。虽然商业实体词典160包含了一个中文简称和一个英文缩写,但只是最常用的。而在实际财经新闻中,由于记者习惯的差异,可能采用不同的商业实体简称或缩写,导致一些不正确的简称或缩写。例如,“中国移动股份有限公司”在财经新闻中有时以“中国移动”为简称,有时又以“中移动”为简称。因此商业实体识别模块120需要对财经新闻中出现的商业实体别名进行识别。
该实施例中,商业实体识别模块120采用近似匹配算法识别商业实体别名,并以最长匹配策略对商业实体别名嵌套实体全名进行歧义消解。近似匹配算法通过编辑距离来计算商业实体别名和商业实体全名两字符串的相似度。编辑距离是经典字符串相似性度量方法,其计算从原串转换到目标串所需要的最少的插入、删除和替换的编辑操作次数,编辑操作次数越少,两字符串越相似。最长匹配策略是基于字符串长度的匹配策略。该实施例中,以句子中的连续字符串匹配商业实体词典中的实体全名,最终取匹配到的全名最长的商业实体。
近似匹配算法采用隐马尔可夫模型(HMM),以概率技术测算全名与简称之间的对应概率对商业实体别名进行识别。其中,HMM采用了如下特征对别名测算对应概率:
(f1)别名字符在商业实体全名字符中的位置;
(f2)别名字符所在词汇的类型(地名、行业名、实体名称后缀)。
识别中,商业实体识别模块120首先采用命名实体识别工具将别名识别出来。但此时并不知道该名称是哪一个商业实体的别名,故商业实体识别模块120根据该别名初步确定多个候选商业实体全名。候选商业实体全名应满足如下条件:
(c1)包含别名中的字符;
(c2)汉字出现先后次序与别名中对应汉字的次序一致。
HMM计算该商业实体别名与候选商业实体全名的映射概率,取概率最大者,将该别名恢复为商业实体全名。HMM是经典的概率分析模型,不再赘述其原理和公式。
(3)识别和解决句子中的商业实体指代现象。
商业实体识别过程中经常出现指代现象。例如句子“近年来,它一直与中国电信保持密切合作关系。”中的“它”即是一种指代现象。从实际文本中,该句子的前一句是“华为技术有限公司成立于1988年。”,于是获知“它”实际上代表了“华为技术有限公司”。
该实施例中,商业实体识别模块120采取最短距离法解决指代现象,即取前文中出现的第一个商业实体名称作为指代的对象。
商业实体识别模块120在识别商业实体的全名、别名以及指代现象后,即可获得商业实体名称,从而可以识别财经新闻中涉及的商业实体
商业关系识别模块130,用于识别财经新闻中提及的商业实体间的商业关系
构建商业社会网络,在获知商业社会中涉及到的商业实体后,还需要获知各个商业实体之间的商业关系。该实施例中,商业关系识别模块130识别句子中商业实体间的商业关系具体包括:
(1)识别句子中商业关系(合作或竞争)关键词识别商业关系。
商业关系关键词是表征商业关系的标准汉语词汇(该实施例涉及合作或竞争两类商业关系)。商业关系识别模块130识别句子中商业关系关键词,以完全匹配方式从句子中识别商业关系关键词词典170中包含的商业关系关键词。
商业关系关键词词典170包含表征两类商业关系(合作或竞争)的词汇及其所表征的商业关系,由人工方式遵循如下规范编制而成:
RKEYWORD={
CWORD:char(256);//《关键词》
CRELATION:enum{COO,COM};//COO=合作;COM=竞争
}
(2)根据商业关系关键词结合其上下文识别商业关系。
商业关系关键词的出现表征了商业关系的发生,但仅靠关键词还不能准确识别财经新闻所要描述的确切商业关系。例如,某表征“合作”的关键词被否定词修饰,导致相反的商业关系(即“竞争”)。因此,需要结合商业关系关键词上下文中可能出现的否定词或起否定效果的句法成分才能正确识别商业关系。该实施例中,商业关系识别模块130采用关键词上下文分析技术识别商业关系。上下文分析技术采用共现分析技术识别两商业实体均出现情况下的商业关系(根据两者之间的商业关系关键词识别),采取共现分析原理,将含有两个商业实体的语句上下文及商业关系关键词都提取出来进行统计分析和归纳。
商业关系识别模块130限定商业关系关键词上下文为语句,在两个层面进行商业关系识别:
(1)词汇层面
商业关系识别模块130采用依存分析工具将语句中词汇间的语法关系分析出来。若商业关系关键词被否定词修饰,则其表征的商业关系发生逆转。
依存分析为浅层句法分析手段,其识别出句子中不同词汇之间的句法依存关系。例如句子“微软公司不会与太阳公司竞争”的依存分析结果是:
其中,root代表句子,HED代表核心动词关系,SBV代表主谓关系,ADV代表状中关系,POB表示介宾关系。由于否定词“不会”修饰了关系关键词“竞争”,起到了置反的作用。因此必须依据依存关系对商业关系进行调整。
本实施例中,在找到关系关键词后,沿着依存关系图,查看是否有否定词修辞该词汇。如果有,则商业关系置反。
(2)句法层面
在句法层面上,起否定作用的句法成分主要有两种:一是反问句,通常以句中反问词和句末问号表征。商业关系识别模块130若发现商业关系关键词所在语句为反问句,则将词法层面的商业关系置反。二是转折复句,以转折或让步连词表征。商业关系识别模块130若发现商业关系关键词所在语句为转折复句的附句,则将词法层面的商业关系置反。
商业社会网络构建模块140,用于根据识别的商业实体和商业实体之间的商业关系构建商业社会网络。
该实施例中,商业社会网络构建模块140采取图理论定义商业社会网络为有权无向图:
G=<N,E,W>
其中N代表商业实体,E表示商业关系,W表示商业关系的权重。
以商业实体为图的节点,以商业关系为图的边,构建商业社会网络。
该实施例中,N是商业实体全集,均定义在商业实体词典中;E是商业关系全集,取值为“合作”和“竞争”两类之一;W表示商业关系的频繁程度,以出现次数累积。
商业社会网络构建模块140将构建好的商业社会网络输出进行展示。
该商业社会网络构建方法及系统,不限定输入财经新闻的数量,输入财经新闻越多,分析越准确。同时,由于商业关系变幻莫测,瞬息万变。如果财经新闻跨越时间范围较宽,很可能会在商业关系上自相矛盾,前后不一。因此设定输入财经新闻集中在某个时间区间范围内。当限定了时间范围后,仍然发生前后不一的现象时,则以最新的商业关系为准。
上述商业社会网络构建方法及系统,从大量财经新闻中自动获取被提及的商业实体以及各商业实体间的商业关系,进而构建商业社会网络,从而快速、全面、实时、准确、智能的完成商业社会网络的构建,准确反映当前商业社会状况,对商业实体进行情报分析和企业决策提供了重要依据,节省了大量时间和费用。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (17)
1.一种商业社会网络构建方法,包括如下步骤:
识别输入的财经新闻中的句子和词汇;
识别句子中的商业实体;
识别句子中商业实体间的商业关系;
根据识别的商业实体以及商业实体间的商业关系构建商业社会网络。
2.根据权利要求1所述的商业社会网络构建方法,其特征在于,所述识别输入的财经新闻中的句子和词汇的步骤具体为:以标识语句终结的标点符号判定句子边界;采用双向最大匹配策略判断词汇边界。
3.根据权利要求1所述的商业社会网络构建方法,其特征在于,所述识别句子中的商业实体具体包括:
识别句子中商业实体全名;
识别句子中商业实体别名;
识别和解决句子中的商业实体指代现象。
4.根据权利要求3所述的商业社会网络构建方法,其特征在于,所述识别句子中商业实体全名的步骤具体为:以字符完全匹配方法从句子中搜索初始构建的商业实体词典中包含的商业实体全名、英文全名、中文缩写、英文缩写或商业实体系统编号中一种或者两种以上。
5.根据权利要求3所述的商业社会网络构建方法,其特征在于,所述识别句子中商业实体别名的步骤具体为:以近似匹配算法识别商业实体别名,并以最长匹配策略对其嵌套的商业实体全名进行歧义消解。
6.根据权利要求5所述的商业社会网络构建方法,其特征在于,所述近似匹配算法采用隐马尔可夫模型识别商业实体别名;所述隐马尔可夫模型采用概率技术测算商业实体别名与商业实体全名之间的对应概率,取对应概率最大的商业实体全名;
所述隐马尔可夫模型采用如下特征测算对应概率:
别名字符在商业实体全名字符中的位置;
别名字符所在词汇的类型。
7.根据权利要求3所述的商业社会网络构建方法,其特征在于,所述识别和解决句子中的商业实体指代现象采取最短距离回溯方法。
8.根据权利要求1所述的商业社会网络构建方法,其特征在于,所述识别句子中商业实体间的商业关系采用如下方式:
识别句子中商业关系关键词识别商业关系;
根据商业关系关键词结合其上下文识别商业关系。
9.根据权利要求8所述的商业社会网络构建方法,其特征在于,所述识别句子中商业关系关键词具体为:以完全匹配方式从句子中识别初始构建的商业关系关键词词典中包含的商业关系关键词。
10.根据权利要求8或9所述的商业社会网络构建方法,其特征在于,所述根据商业关系关键词结合其上下文识别商业关系具体为:根据商业关系关键词上下文中出现的否定词或起否定效果的句法成分结合商业关系关键词识别商业关系。
11.根据权利要求1所述的商业社会网络构建方法,其特征在于,所述根据识别的商业实体以及商业实体间的商业关系构建商业社会网络的步骤具体为:采取图理论,以商业实体为图的节点,以商业关系为图的边,构建商业社会网络。
12.一种商业社会网络构建系统,其特征在于,包括:
财经新闻处理模块,用于识别输入的财经新闻中的句子和词汇;
商业实体词典,用于存放商业实体的中文全名、英文全名、中文简称、英文缩写以及ID中一种或者两种以上;
商业实体识别模块,用于识别句子中的商业实体;
商业关系关键词词典,用于存放表征商业关系的常用词汇及其表示的商业关系;
商业关系识别模块,用于识别句子中商业实体间的商业关系;
商业社会网络构建模块,根据识别的商业实体以及商业实体间的商业关系构建商业社会网络。
13.根据权利要求12所述的商业社会网络构建系统,其特征在于,所述财经新闻处理模块识别财经新闻中的句子和词汇,以标识语句终结的标点符号判定句子边界;采用双向最大匹配策略判断词汇边界。
14.根据权利要求12所述的商业社会网络构建系统,其特征在于,所述商业实体识别模块,识别句子中商业实体全名和句子中商业实体别名,识别和解决句子中的商业实体指代现象;
所述商业实体识别模块识别句子中商业实体全名,采用字符完全匹配方式从句子中搜索所述商业实体词典中包含的商业实体全名、英文全名、中文缩写、英文缩写或商业实体系统编号中一种或者两种以上;
所述商业实体识别模块识别商业实体别名,采用近似匹配算法,并以最长匹配策略对商业实体别名嵌套的商业实体全名进行歧义消解。
15.根据权利要求14所述的商业社会网络构建系统,其特征在于,所述近似匹配算法采用隐马尔可夫模型识别商业实体别名;
所述隐马尔可夫模型采用概率技术测算商业实体全名与别名之间的对应概率,取对应概率最大的商业实体全名,并采用如下特征测算:
别名字符在商业实体全名字符中的位置;
别名字符所在词汇的类型。
16.根据权利要求12所述的商业社会网络构建系统,其特征在于,所述商业关系识别模块识别句子中商业关系关键词识别商业关系;或者根据商业关系关键词结合其上下文识别商业关系;
所述商业关系模块识别句子中商业关系关键词,以完全匹配方式从句子中识别所述商业关系关键词词典中包含的商业关系关键词;
所述商业关系模块根据商业关系关键词上下文中出现的否定词或起否定效果的句法成分结合商业关系关键词识别商业关系。
17.根据权利要求12所述的商业社会网络构建系统,其特征在于,所述商业关系网络构建模块采取图理论,以商业实体为图的节点,以商业关系为图的边,构建商业社会网络。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201010184041A CN101853292A (zh) | 2010-05-18 | 2010-05-18 | 商业社会网络构建方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201010184041A CN101853292A (zh) | 2010-05-18 | 2010-05-18 | 商业社会网络构建方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN101853292A true CN101853292A (zh) | 2010-10-06 |
Family
ID=42804784
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201010184041A Pending CN101853292A (zh) | 2010-05-18 | 2010-05-18 | 商业社会网络构建方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101853292A (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014101007A1 (en) * | 2012-12-26 | 2014-07-03 | Thomson Licensing | Method and apparatus for transmitting information within a preset environment |
CN104025085A (zh) * | 2011-07-28 | 2014-09-03 | 纪金有限公司 | 用于提供关于包括在内容页面中的语义实体的信息的系统和方法 |
CN105094515A (zh) * | 2014-05-19 | 2015-11-25 | 穆西格马交易方案私人有限公司 | 商业问题网络化系统和工具 |
CN105190595A (zh) * | 2012-07-30 | 2015-12-23 | 阿德尔费克公司 | 唯一地识别网络连接实体 |
CN106294338A (zh) * | 2015-05-12 | 2017-01-04 | 株式会社理光 | 信息处理方法和信息处理装置 |
CN107368470A (zh) * | 2017-06-27 | 2017-11-21 | 北京神州泰岳软件股份有限公司 | 一种提取企业内部组织架构信息的方法和装置 |
CN108647194A (zh) * | 2018-04-28 | 2018-10-12 | 北京神州泰岳软件股份有限公司 | 信息抽取方法及装置 |
CN108763507A (zh) * | 2018-05-30 | 2018-11-06 | 北京百度网讯科技有限公司 | 企业关联关系挖掘方法和装置 |
CN111368542A (zh) * | 2018-12-26 | 2020-07-03 | 北京大学 | 一种基于递归神经网络的文本语言关联抽取方法和系统 |
-
2010
- 2010-05-18 CN CN201010184041A patent/CN101853292A/zh active Pending
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104025085A (zh) * | 2011-07-28 | 2014-09-03 | 纪金有限公司 | 用于提供关于包括在内容页面中的语义实体的信息的系统和方法 |
CN105190595A (zh) * | 2012-07-30 | 2015-12-23 | 阿德尔费克公司 | 唯一地识别网络连接实体 |
WO2014101007A1 (en) * | 2012-12-26 | 2014-07-03 | Thomson Licensing | Method and apparatus for transmitting information within a preset environment |
CN105094515A (zh) * | 2014-05-19 | 2015-11-25 | 穆西格马交易方案私人有限公司 | 商业问题网络化系统和工具 |
CN106294338A (zh) * | 2015-05-12 | 2017-01-04 | 株式会社理光 | 信息处理方法和信息处理装置 |
CN106294338B (zh) * | 2015-05-12 | 2019-08-30 | 株式会社理光 | 信息处理方法和信息处理装置 |
CN107368470A (zh) * | 2017-06-27 | 2017-11-21 | 北京神州泰岳软件股份有限公司 | 一种提取企业内部组织架构信息的方法和装置 |
CN108647194A (zh) * | 2018-04-28 | 2018-10-12 | 北京神州泰岳软件股份有限公司 | 信息抽取方法及装置 |
CN108647194B (zh) * | 2018-04-28 | 2022-04-19 | 北京神州泰岳软件股份有限公司 | 信息抽取方法及装置 |
CN108763507A (zh) * | 2018-05-30 | 2018-11-06 | 北京百度网讯科技有限公司 | 企业关联关系挖掘方法和装置 |
US11397778B2 (en) | 2018-05-30 | 2022-07-26 | Beijing Baidu Netcom Service and Technology Co., Ltd. | Method and device for mining an enterprise relationship |
CN111368542A (zh) * | 2018-12-26 | 2020-07-03 | 北京大学 | 一种基于递归神经网络的文本语言关联抽取方法和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101853292A (zh) | 商业社会网络构建方法及系统 | |
CN106777275B (zh) | 基于多粒度语义块的实体属性和属性值提取方法 | |
CN106598939B (zh) | 一种文本纠错方法及装置、服务器、存储介质 | |
CN101950284B (zh) | 中文分词方法及系统 | |
CN101930435B (zh) | 机构名称检索方法及系统 | |
CN105975625A (zh) | 一种面向英文搜索引擎的中式英文查询纠错方法和系统 | |
CN106326303B (zh) | 一种口语语义解析系统及方法 | |
CN100578539C (zh) | 自动问答方法及系统 | |
CN108334493B (zh) | 一种基于神经网络的题目知识点自动提取方法 | |
CN102693279B (zh) | 一种快速计算评论相似度的方法、装置及系统 | |
CN104679867B (zh) | 基于图的地址知识处理方法及装置 | |
CN112307153B (zh) | 一种产业知识库自动构建方法、装置及存储介质 | |
CN110781670B (zh) | 基于百科知识库和词向量的中文地名语义消歧方法 | |
CN103309926A (zh) | 基于条件随机场的中英文混合命名实体识别方法及系统 | |
CN109597895B (zh) | 一种基于知识图谱的公文搜索方法 | |
CN101493812B (zh) | 一种音字转换方法 | |
CN105975475A (zh) | 基于中文短语串的细粒度主题信息抽取方法 | |
CN101980210A (zh) | 一种标的词分类分级方法及系统 | |
CN112527933A (zh) | 一种基于空间位置和文本训练的中文地址关联方法 | |
CN110390022A (zh) | 一种自动化的专业知识图谱构建方法 | |
CN105389303B (zh) | 一种异源语料自动融合方法 | |
CN109783819A (zh) | 一种正则表达式的生成方法及系统 | |
CN107784123B (zh) | 一种基于主题的搜索优化方法 | |
CN117875307A (zh) | 一种用于智能问答的文本解析方法和装置 | |
CN117909754A (zh) | 基于孪生神经网络的电厂设备缺陷辅助消除方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C12 | Rejection of a patent application after its publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20101006 |