CN112926304A - 判断新闻中主要关联公司的方法及相关设备 - Google Patents
判断新闻中主要关联公司的方法及相关设备 Download PDFInfo
- Publication number
- CN112926304A CN112926304A CN202110366090.6A CN202110366090A CN112926304A CN 112926304 A CN112926304 A CN 112926304A CN 202110366090 A CN202110366090 A CN 202110366090A CN 112926304 A CN112926304 A CN 112926304A
- Authority
- CN
- China
- Prior art keywords
- company
- com
- news
- news data
- companies
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Accounting & Taxation (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Finance (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Technology Law (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明属于金融财经技术领域,具体涉及一种判断新闻中主要关联公司的方法及相关设备。其中方法包括获取新闻数据,从新闻数据中提取每个公司及每个公司在新闻数据中出现的名称词;根据公司与新闻数据的相关度值和相关度动态阈值过滤非主要关联公司,确定所有主要关联公司;输出主要关联公司结果。本发明通过相关度值和相关度动态阈值来筛选出主要关联公司,筛选结果可靠精确。
Description
技术领域
本发明属于金融财经技术领域,具体涉及一种判断新闻中主要关联公司的方法及相关设备。
背景技术
在金融财经领域中,财经新闻是重要的信息来源,因此对财经新闻的分析是金融科技领域的一项基础性工作。在对财经新闻的各种分析中,最重要的一项是提取出新闻中提及的公司。在多数情况下,新闻中会提及不止一家公司,有些公司和新闻的相关度较低,而有些公司和新闻的关联程度较高,新闻内容主要围绕这些公司展开,这些高关联公司通常也是后续分析所关注的对象。
目前对新闻中主要关联公司进行判定的方法不多,有些网站对于公司和新闻的关联性不做定量分析,如东方财富网站上的公司相关资讯,只要新闻中出现了公司名称,就把新闻和公司关联起来。有些网站和数据服务如路透的新闻服务API会提供公司和新闻的相关度,用户可通过设定相关度阈值来提取出新闻的主要关联公司。
但是以相关度和阈值的方法来确定新闻中主要关联公司的方法存在判定不准确的问题。由于新闻的长度不同,新闻中出现公司的数量、位置不同,导致对于不同的新闻,公司相关度的分布是不同的,因此使用一个固定的阈值判定是否主要关联公司可能会发生错误,导致输出了多余的公司或漏掉了主要关联公司。即使把阈值和新闻长度关联起来形成动态阈值,效果也不理想,因为长度相同的新闻中公司的分布相差也很明显,计算出的公司相关度也有明显差异。所以简单的和新闻长度相关的动态阈值也会存在判定不准确的问题。
另外,以相关度和阈值的方法来确定新闻中主要关联公司的方法对于一篇新闻内描述多个事件的情况不能很好地处理。此类新闻通常是信息综述,往往会描述若干个不相关的事件,每个事件中都可能会有一些和该事件比较相关的公司出现。因此最终结果中可能出现多个相关度较高的公司,但实际上这类新闻并没有主要关联公司。单纯通过对相关度和阈值的分析不能识别出此类新闻,也无法做出专门处理。
发明内容
本发明针对从财经新闻中提取出新闻中提及的主要关联公司时,以相关度和阈值的方式无法得到较为精确结果的技术问题,目的在于提供一种判断新闻中主要关联公司的方法及相关设备。
判断新闻中主要关联公司的方法,包括如下步骤:
获取新闻数据,从所述新闻数据中提取每个公司及每个公司在所述新闻数据中出现的名称词,将公司记作comii∈[1,N],其中N表示所述新闻数据中出现N个公司,i表示第i个公司;
根据公司comi与所述新闻数据的相关度值reli和相关度动态阈值grad_threshold过滤非主要关联公司,确定所有主要关联公司;
输出主要关联公司结果。
可选的,所述相关度值reli为根据所述新闻数据中的句子总数SEN_CNT、自然段总数PARA_CNT、comi的名称词在所述新闻数据中出现的句子数量sen_cnti和comi的名称词在所述新闻数据中出现的自然段数量para_cnti计算得到,所述相关度动态阈值grad_threshold为根据reli计算得到。
可选的,所述新闻数据中的句子总数SEN_CNT、自然段总数PARA_CNT、comi的名称词在所述新闻数据中出现的句子数量sen_cnti和comi的名称词在所述新闻数据中出现的自然段数量para_cnti的统计方法为:
以句号、问号、感叹号、省略号和换行符作为分句标志,统计所述新闻数据中的句子总数,记为SEN_CNT;
统计所述新闻数据中的自然段总数,记为PARA_CNT;
统计所述新闻数据中出现comi的名称词的句子数量,记为sen_cnti;
统计所述新闻数据中出现comi的名称词的自然段数量,记为para_cnti。
可选的,采用如下公式计算所有公司和新闻数据的相关度值:
其中,A和B为预设的大于0的系数,且A+B=1。
可选的,在统计所述新闻数据中的自然段总数时,所述新闻数据中的标题也算作一个自然段,并排除掉空白的自然段。
可选的,在统计所述新闻数据中出现comi的名称词的自然段数量时,如果comi在标题中出现,para_cnti+=C,其中C为预设的大于0的系数。
可选的,所述相关度动态阈值grad_threshold为根据reli计算得到,包括:
将公司按reli降序排列,得到comjj∈[1,N],表示排序后的第j个公司;
计算相邻公司间的相关度下降梯度,gradj表示comj和comj+1之间的下降梯度,gradj的计算公式为:
当存在k使得relk>D and gradk≥E,记录所述相关度动态阈值grad_threshold=relk,如果不存在这样的k,则所述相关度动态阈值grad_threshold=0,其中D和E均为预设的大于0的阈值。
可选的,根据公司comi与所述新闻数据的相关度值reli和相关度动态阈值grad_threshold过滤非主要关联公司,确定所有主要关联公司,包括:
取comj及其相关数据,其中comjj∈[1,N],表示将公司按reli降序排列后的第j个公司;
如果N>F且相关度值relj小于相关度动态阈值grad_threshold,则comj不是主要关联公司,转到下下步,否则转到下一步,其中F为预设的大于0的阈值;
如果j等于N,转到下一步,否则j=j+1,转到第一步;
返回主要关联公司结果。
可选的,所述根据comi公司与所述新闻数据的相关度值reli和相关度动态阈值grad_threshold过滤非主要关联公司,确定所有主要关联公司之前,还包括:
根据comi的名称词在所述新闻数据中出现的次数word_cnti来过滤非主要关联公司,确定所有主要关联公司。
可选的,所述根据comi的名称词在所述新闻数据中出现的次数word_cnti来过滤非主要关联公司,确定所有主要关联公司,包括:
取comj及其相关数据,其中comjj∈[1,N],表示将公司按reli降序排列后的第j个公司;
如果comj没有在所述新闻数据的标题中出现并且relj<or word_cntj=L,则comj不是主要关联公司,转到最后第二步,否则转到下一步,其中K和L为预设的大于0的阈值;
如果comj在所述新闻数据的标题中出现但没有在所述新闻数据的正文中出现,则comj不是主要关联公司,转到最后第二步,否则转到下一步;
如果comj在所述新闻数据的标题中出现,也在所述新闻数据的正文中出现,则comj是主要关联公司,转到最后第二步,否则转到根据公司comi与所述新闻数据的相关度值reli和相关度动态阈值grad_threshold过滤非主要关联公司,确定所有主要关联公司步骤;
如果j等于N,转到下一步,否则j=j+1,转到第一步;
返回主要关联公司结果。
可选的,在所述获取新闻数据,从所述新闻数据中提取每个公司及每个公司在所述新闻数据中出现的名称词,将公司记作comii∈[1,N],其中N表示所述新闻数据中出现N个公司,i表示第i个公司后,还包括:
根据每个公司与所述新闻数据的正文的相关度值的方差var、每个公司与其他公司的出现交叉度crossi、每个公司在所述新闻数据的正文中的有效影响范围scopei,以var、scopei和crossi中的至少一项或其组合来判断是否存在主要关联公司;
若不存在主要关联公司,则返回主要关联公司结果,若存在主要关联公司,则进行根据公司comi与所述新闻数据的相关度值reli和相关度动态阈值grad_threshold过滤非主要关联公司,确定所有主要关联公司步骤。
可选的,所述每个公司与所述新闻数据的正文的相关度值的方差var的计算方式,包括:
统计所述新闻数据的正文中出现comi的名称词的句子数量,记为con_sen_cnti;
统计所述新闻数据的正文中出现comi的名称词的自然段数量,记为con_para_cnti;
计算所有公司和所述新闻数据的正文的相关度值:
其中,A和B为预设的大于0的系数,且A+B=1;
计算公司和所述新闻数据的正文的相关度值con_reli的方差,记为var。
可选的,所述每个公司在所述新闻数据的正文中的有效影响范围scopei的计算方式,包括:
预设一个有效影响范围列表,所述有效影响范围列表用于记录出现comi的句子及多个有效影响部分;
提取comi的所有有效有效部分,将所有有效影响部分合并到所述有效影响范围列表,得到有效影响范围scopei。
一个有效影响部分是从出现comi的一个句子起到该句之后的第x个句子且包含第x个句子、或从出现comi的一个句子起到该自然段的最后一个句子且包含该自然段的最后一个句子、或从出现comi的一个句子起到下一个出现comi的句子且不含下一个出现comi的句子为止的所有句子,以先满足的条件为准,其中x是预设的有效范围阈值。
可选的,所述每个公司与其他公司的出现交叉度crossi的计算方式,包括:
出现在comi有效影响范围scopei内的其他公司数量为出现交叉度crossi。
可选的,根据每个公司与所述新闻数据的正文的相关度值的方差var来判断是否存在主要关联公司,包括:
如果var<M,那么所有的公司都不是主要关联公司,则不存在主要关联公司,否则存在主要关联公司,其中M为预设的大于0的阈值。
可选的,根据每个公司与其他公司的出现交叉度crossi来判断是否存在主要关联公司,包括:
可选的,根据每个公司在所述新闻数据的正文中的有效影响范围scopei和var来判断是否存在主要关联公司,包括:
可选的,根据scopei和crossi来判断是否存在主要关联公司,包括:
可选的,在根据每个公司与所述新闻数据的正文的相关度值的方差var、每个公司与其他公司的出现交叉度crossi、每个公司在所述新闻数据的正文中的有效影响范围scopei和var、或scopei和crossi中的至少一项或其组合来判断是否存在主要关联公司之前,还包括:
判断N是否大于U,其中U为预设的大于0的阈值,且优选U大于F;
若N大于U,则进行判断是否存在主要关联公司的步骤;
若N不大于U,则跳过判断是否存在主要关联公司的步骤,转到根据公司comi与所述新闻数据的相关度值reli和相关度动态阈值grad_threshold过滤非主要关联公司,确定所有主要关联公司步骤。
判断新闻中主要关联公司的装置,包括:
提取公司数据模块,用于获取新闻数据,从所述新闻数据中提取每个公司及每个公司在所述新闻数据中出现的名称词,将公司记作comii∈[1,N],其中N表示所述新闻数据中出现N个公司,i表示第i个公司;
过滤非主要关联公司模块,用于根据公司comi与所述新闻数据的相关度值reli和相关度动态阈值grad_threshold过滤非主要关联公司,确定所有主要关联公司;
输出模块,用于输出主要关联公司结果。
一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行上述判断新闻中主要关联公司的方法的步骤。
一种存储有计算机可读指令的存储介质,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行上述判断新闻中主要关联公司的方法的步骤。
本发明的积极进步效果在于:本发明采用判断新闻中主要关联公司的方法、装置、设备和存储介质,具有如下显著优点:
1、本发明采用了一种组合方式来确保输出结果公司和新闻有足够的相关程度,要求在新闻数据中出现公司的段落和句子要达到一定比例,要求在新闻数据中出现公司的段落和句子要达到一定数量,要求公司和新闻数据的相关度要达到一定数值,三者综合作用以确保输出结果公司和新闻数据有足够的相关程度。
2、本发明使用了动态相关度阈值grad_threshold。grad_threshold反映的是各公司相关度按降序排列时出现剧烈下降时的位置。一般主要关联公司的相关度是明显高于非主要关联公司的相关度的,如果两个相邻公司一个是主要关联公司而另一个不是,那么非主要关联公司的相关度和主要关联公司的相关度相比会有一个明显下降,这种下降的程度可以通过相邻公司之间相关度的下降梯度来描述。grad_threshold本质上是下降梯度的阈值,当按相关度降序的顺序计算相邻公司之间相关度的下降梯度第一次超过阈值时,此处即是主要关联公司和非主要关联公司的分界线。
3、本发明使用了公司和新闻数据相关度的方差来判断是否不存在主要关联公司。方差能够度量样本点的值偏离均值的大小。如果方差过小,表明各样本点的值都很接近均值,即各个公司和新闻数据的相关度都差不多,不存在新闻数据重点描述的公司,不存在主要关联公司。
4、本发明计算了每个公司在新闻数据的正文中的有效影响范围scopei和每个公司与其他公司的出现交叉度crossi。scopei反映了comi在新闻数据的正文中的分布特征,即comi是能覆盖到新闻数据的大部分范围,还是只能集中地覆盖新闻数据的一部分范围。能覆盖新闻数据大部分范围的公司比较可能是主要关联公司,如果不存在这样的公司,说明新闻数据没有用主要篇幅描述某些公司,新闻数据中不存在主要关联公司。crossi反映了各公司在新闻数据的正文中出现范围的重合情况,如果某个公司的crossi接近N,说明描述其他公司的时候大都会同时描述该公司,即该公司和其他大部分公司都有关联,那么该公司比较可能是主要关联公司。如果不存在这样的公司,说明新闻数据中描述各公司时都是彼此独立的,新闻数据中不存在主要关联公司。
附图说明
图1为本发明的一种实施例流程示意图;
图2为本发明的另一种实施例流程示意图。
具体实施方式
为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,下面结合具体图示进一步阐述本发明。
参照图1,本发明的一个实施例中判断新闻中主要关联公司的方法,包括如下步骤:
S1,提取公司数据:获取新闻数据,从新闻数据中提取每个公司及每个公司在新闻数据中出现的名称词,将公司记作comii∈[1,N],其中N表示新闻数据中出现N个公司,i表示第i个公司。
本发明中涉及数据结构的部分均以python语言作为编程语言进行描述。
本步骤中的新闻数据可以从其他系统或输入介质输入得到,输入内容包括新闻的文本和文本分词后的结果,新闻的文本通常包括标题和正文,新闻的文本及分词的结果即为本步骤的新闻数据。从新闻数据中提取每个公司及每个公司在新闻数据中出现的名称词时采用现有技术的查找公司名称词的方式,一个公司在新闻数据中会出现至少一个名称词,将这些名称词和对应的公司进行关联并记录。
S2,过滤非主要关联公司:根据公司comi与新闻数据的相关度值reli和相关度动态阈值grad_threshold过滤非主要关联公司,确定所有主要关联公司。
在一个实施例中,公司comi与新闻数据的相关度值reli为根据新闻数据中的句子总数SEN_CNT、自然段总数PARA_CNT、comi的名称词在新闻数据中出现的句子数量sen_cnti和comi的名称词在新闻数据中出现的自然段数量para_cnti计算得到,相关度动态阈值grad_threshold为根据reli计算得到。
在一个实施例中,新闻数据中的句子总数SEN_CNT、自然段总数PARA_CNT、comi的名称词在新闻数据中出现的句子数量sen_cnti和comi的名称词在新闻数据中出现的自然段数量para_cnti的统计方法为:
以句号、问号、感叹号、省略号和换行符作为分句标志,统计新闻数据中的句子总数,记为SEN_CNT。
统计新闻数据中的自然段总数,记为PARA_CNT。在统计新闻数据中的自然段总数时,新闻数据中的标题也算作一个自然段,并排除掉空白的自然段。
统计新闻数据中出现comi的名称词的句子数量,记为para_cnti。
统计新闻数据中出现comi的名称词的自然段数量,记为para_cnti。在统计新闻数据中出现comi的名称词的自然段数量时,如果comi在标题中出现,para_cnti+=C,其中C为预设的大于0的系数。本实施例中,C优选为29,即如果comi在标题中出现,pare_cnti的最终结果为para_cnti加上系数29。
在一个实施例中,采用如下公式计算所有公司和新闻数据的相关度值:
其中,A和B为预设的大于0的系数,且A+B=1。本实施例中,A和B均优选为0.5,即公司和新闻数据的相关度值的计算公式优选为:
在一个实施例中,相关度动态阈值grad_threshold的计算方法如下:
将公司按reli降序排列,得到comjj∈[1,N],表示排序后的第j个公司;
计算相邻公司间的相关度下降梯度,gradj表示comj和comj+1之间的下降梯度,gradj的计算公式为:
当存在k使得relk>D and gradk≥E,记录相关度动态阈值grad_threshold=relk,如果不存在这样的k,则相关度动态阈值grad_threshold=0,其中D和E均为预设的大于0的阈值。
本实施例中,D优选为0.1,E优选为0.8,则当存在k使得relk>0.1andgradk≥0.8,记录相关度动态阈值grad_threshold=relk
在一个实施例中,根据公司comi与新闻数据的相关度值reli和相关度动态阈值grad_threshold过滤非主要关联公司,确定所有主要关联公司,包括S212根据段落和句子过滤非主要关联公司:
S2121,取comj及其相关数据,其中comjj∈[1,N],表示将公司按reli降序排列后的第j个公司。
S2122,如果N>F and relj<grad_threshold,则comj不是主要关联公司,转到S2124,否则转到下一步,其中F为预设的大于0的阈值。本实施例中F优选为3,则如果N>3and relj<grad_threshold,则comj不是主要关联公司。
S2123,
如果 则comj是主要关联公司,转到下一步,其中,abs_thresh是相关度过滤绝对阈值,G、H、I和J均为预设的大于0的阈值。本实施例中G优选为0.25,H优选为3,I优选为0.25,J优选为1。另外,本实施了中abs_thresh优选0.12。则如果 则comj是主要关联公司。
S2124,如果j等于N,转到下一步,否则j=j+1,转到S2121。
S2125,返回主要关联公司结果。
在一个实施例中,在根据公司comi与新闻数据的相关度值reli和相关度动态阈值grad_threshold过滤非主要关联公司,确定所有主要关联公司之前,还包括根据comi的名称词在新闻数据中出现的次数word_cnti来过滤非主要关联公司,确定所有主要关联公司。
优选的,根据comi的名称词在新闻数据中出现的次数word_cnti来过滤非主要关联公司,确定所有主要关联公司,包括S211根据公司位置过滤非主要关联公司:
S2111,取comj及其相关数据,其中comjj∈[1,N],表示将公司按reli降序排列后的第j个公司;
S2113,如果comj没有在新闻数据的标题中出现并且relj<K or word_cntj=L,则comj不是主要关联公司,转到S2116,否则转到下一步,其中K和L为预设的大于0的阈值。在本实施例中,K优选为0.3,L优选为1,则如果comj没有在新闻数据的标题中出现并且relj<0.3 or word_cntj=1,则comj不是主要关联公司。
S2114,如果comj在新闻数据的标题中出现但没有在新闻数据的正文中出现,则comj不是主要关联公司,转到S2116,否则转到下一步。
S2115,如果comj在新闻数据的标题中出现,也在新闻数据的正文中出现,则comj是主要关联公司,转到S2116,否则转到S212根据段落和句子过滤非主要关联公司的步骤。
S2116,如果j等于N,转到下一步,否则j=j+1,转到第一步;
S2117,返回主要关联公司结果。
在一个实施例中,当S211根据公司位置过滤非主要关联公司和S212根据段落和句子过滤非主要关联公司两个过滤过程合用时,S2111和S2121、S2116和S2124、S2117和S2125为共同步骤,即可实现如下一种更优的S210综合过滤非主要关联公司的方法:
S2101,取comj及其相关数据,其中comjj∈[1,N],表示将公司按reli降序排列后的第j个公司;
S2103,如果comj没有在新闻数据的标题中出现并且relj<0.3orword_cntj=1,则comj不是主要关联公司,转到S2108,否则转到下一步;
S2104,如果comj在新闻数据的标题中出现但没有在新闻数据的正文中出现,则comj不是主要关联公司,转到S2108,否则转到下一步;
S2105,如果comj在新闻数据的标题中出现,也在新闻数据的正文中出现,则comj是主要关联公司,转到S2108,否则转到下一步;
S2106,如果N>3 and relj<grad_threshold,则comj不是主要关联公司,转到S2108,否则转到下一步;
S2108,如果j等于N,转到下一步,否则j=j+1,转到S2101。
S2109,返回主要关联公司结果。
在一个实施例中,步骤S1之后,还包括步骤S200判断是否存在主要关联公司:
根据每个公司与新闻数据的正文的相关度值的方差var、每个公司与其他公司的出现交叉度crossi、每个公司在新闻数据的正文中的有效影响范围scopei,以var、scopei和crossi中的至少一项或其组合来判断是否存在主要关联公司;
若不存在主要关联公司,则返回主要关联公司结果,若存在主要关联公司,则进行根据公司comi与新闻数据的相关度值reli和相关度动态阈值grad_threshold过滤非主要关联公司,确定所有主要关联公司步骤。
即在步骤S212根据段落和句子过滤非主要关联公司之前,或者步骤S210综合过滤非主要关联公司之前,还增设了上述步骤S200判断是否存在主要关联公司,只有存在主要关联公司的前提下才继续进行后续过滤非主要关联公司的步骤。
在一个实施例中,每个公司与新闻数据的正文的相关度值的方差var的计算方式,包括:
统计新闻数据的正文中出现comi的名称词的句子数量,记为con_sen_cnti;
统计新闻数据的正文中出现comi的名称词的自然段数量,记为con_para_cnti;
计算所有公司和新闻数据的正文的相关度值:
其中,A和B为预设的大于0的系数,且A+B=1。本实施例中,A和B均优选为0.5,即公司和新闻数据的的正文的相关度值的计算公式优选为:
具体的,上述计算公司和新闻数据的正文的相关度值采用的系数,计算公司和闻数据的相关度值采用的系数相同,即都采用相同的A和B。
计算公司和新闻数据的正文的相关度值con_reli的方差,记为var。
在一个实施例中,每个公司在新闻数据的正文中的有效影响范围scopei的计算方式,包括:
预设一个有效影响范围列表,有效影响范围列表用于记录出现comi的句子及多个有效影响部分;
提取comi的所有有效有效部分,将所有有效影响部分合并到有效影响范围列表,得到有效影响范围scopei。其中,一个有效影响部分是从出现comi的一个句子起到该句之后的第x个句子且包含第x个句子、或从出现comi的一个句子起到该自然段的最后一个句子且包含该自然段的最后一个句子、或从出现comi的一个句子起到下一个出现comi的句子且不含下一个出现comi的句子为止的所有句子,以先满足的条件为准,其中x是预设的有效范围阈值,在本实施例中,x优选为5,即从出现comi的一个句子起到该句之后的第5个句子且包含第5个句子、或从出现comi的一个句子起到该自然段的最后一个句子且包含该自然段的最后一个句子、或从出现comi的一个句子起到下一个出现comi的句子且不含下一个出现comi的句子为止的所有句子中哪种方式先满足得到若干句句子,就该若干句句子作为一个有效影响部分。
在一个实施例中,每个公司与其他公司的出现交叉度crossi的计算方式,包括:出现在comi有效影响范围scopei内的其他公司数量为出现交叉度crossi。
本实施例中,出现交叉度crossi是出现在comi有效影响范围scopei内的其他公司数量,而不是其他公司的出现次数。例如有5个公司在有效影响范围scopei内共计出现了10次,则出现交叉度crossi为5。
在一个实施例中,根据每个公司与新闻数据的正文的相关度值的方差var来判断是否存在主要关联公司,包括:
如果var<M,那么所有的公司都不是主要关联公司,则不存在主要关联公司,否则存在主要关联公司,其中M为预设的大于0的阈值。在本实施例中,M优选为0.005,即如果var<0.005,那么所有的公司都不是主要关联公司。
在一个实施例中,根据每个公司与其他公司的出现交叉度crossi来判断是否存在主要关联公司,包括:
在一个实施例中,根据每个公司在新闻数据的正文中的有效影响范围scopei和var来判断是否存在主要关联公司,包括:
在一个实施例中,根据scopei和crossi来判断是否存在主要关联公司,包括:
在一个实施例中,S200判断是否存在主要关联公司的一种组合方式为:
S2001,如果var<0.005,那么所有的公司都不是主要关联公司,转到S2005,反之转到下一步;
S2005,返回主要关联公司结果。
在一个实施例中,S200判断是否存在主要关联公司的另一种组合方式为:
S2001,如果var<0.005,那么所有的公司都不是主要关联公司,转到S2005,反之转到下一步;
S2005,返回主要关联公司结果。
在一个实施例中,S200判断是否存在主要关联公司的另一种组合方式为:
S2001,如果var<0.005,那么所有的公司都不是主要关联公司,转到S2005,反之转到下一步;
S2005,返回主要关联公司结果。
在一个实施例中,S200判断是否存在主要关联公司的另一种组合方式为:
S2005,返回主要关联公司结果。
在一个实施例中,在步骤S200判断是否存在主要关联公司之前,还包括:判断N是否大于U,其中F为预设的大于0的阈值;若N大于U,则进行步骤S200判断是否存在主要关联公司;若N不大于U,则跳过步骤S200判断是否存在主要关联公司,转到步骤S212根据段落和句子过滤非主要关联公司,或者转到步骤S210综合过滤非主要关联公司。
在本实施例中,U优选大于F,即U优选大于3,U更优选为5,即判断N是否大于5来确定是否跳过步骤骤S200判断是否存在主要关联公司。
S3,输出:输出主要关联公司结果。
本步骤可以根据S1中输入新闻数据时与其他系统或输入介质建立的通信,将主要关联公司结果进行输出。其输出内容可以包括新闻的文本、新闻数据中公司的总数,每个公司的名称词及该公司是否为主要关联公司的标识。其输出内容也可以根据S2得到的主要关联公司的所有信息合并成一个表格或数据流。
在一个实施例中,本发明可以采用的一种判断新闻中主要关联公司的方法为:S1提取公司数据、S212根据段落和句子过滤非主要关联公司和S3输出的组合方式。
在一个实施例中,本发明可以采用的另一种判断新闻中主要关联公司的方法为:S1提取公司数据、S210综合过滤非主要关联公司和S3输出的组合方式。
在一个实施例中,本发明可以采用的另一种判断新闻中主要关联公司的方法为:S1提取公司数据、S200判断是否存在主要关联公司、S212根据段落和句子过滤非主要关联公司和S3输出的组合方式。在S200判断是否存在主要关联公司还可判断N是否大于5。
在一个实施例中,本发明以采用的另一种判断新闻中主要关联公司的方法为:S1提取公司数据、S200判断是否存在主要关联公司、S210综合过滤非主要关联公司和S3输出的组合方式。在S200判断是否存在主要关联公司还可判断N是否大于5。参照图2,上述方法中关于步骤S2中的S200和S210的一种优选的具体过滤非主要关联公司的过程如下:
1)如果N>5,转到下一步,反之转到6);
2)如果var<0.005,那么所有的公司都不是主要关联公司,转到14),反之转到下一步;
6)取comj及其相关数据;
8)如果comj没有在标题中出现并且relj<0.3 or word_cntj=1,则comj不是主要关联公司,转到13),否则转到下一步;
9)如果comj在标题中出现但没有在正文中出现,则comj不是主要关联公司,转到13),否则转到下一步;
10)如果comj在标题中出现也在正文中出现,则comj是主要关联公司,转到13),否则转到下一步;
11)如果N>3 and relj<grad_threshold,则comj不是主要关联公司,转到13),否则转到下一步;
12)如果
13)如果j等于N,转到下一步,否则j=j+1,转到6);
14)返回主要关联公司结果。
本实施例中,根据公司在新闻数据中的分布情况计算出新闻数据中每个公司和新闻数据的相关度值,根据相关度值的分布计算出相关度动态阈值。还计算了相关度方差、每个公司在新闻数据的正文中的有效影响范围及每个公司和其他公司的出现交叉度,通过方差、有效影响范围和出现交叉度来判断是否存在主要关联公司,如果存在主要关联公司时,则通过动态阈值和相关过滤条件筛选出主要关联公司,这种方式能根据新闻数据和新闻数据中公司的具体情况,动态地选择判定主要关联公司的条件,并且能够排除掉一篇新闻内描述多个事件的情况,从而准确地分析出新闻数据中主要关联公司。
在一个实施例中,提出了一种判断新闻中主要关联公司的装置,包括如下模块:
提取公司数据模块,用于获取新闻数据,从新闻数据中提取每个公司及每个公司在新闻数据中出现的名称词,将公司记作comii∈[1,N],其中N表示新闻数据中出现N个公司,i表示第i个公司;
过滤非主要关联公司模块,用于根据公司comi与新闻数据的相关度值reli和相关度动态阈值grad_threshold过滤非主要关联公司,确定所有主要关联公司;
输出模块,用于输出主要关联公司结果。
在一个实施例中,提出了一种计算机设备,包括存储器和处理器,存储器中存储有计算机可读指令,计算机可读指令被处理器执行时,使得处理器执行上述各实施例判断新闻中主要关联公司的方法中的步骤。
在一个实施例中,提出了一种存储有计算机可读指令的存储介质,计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行上述各实施例判断新闻中主要关联公司的方法中的步骤。其中,存储介质可以为非易失性存储介质。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、磁盘或光盘等。
以上各实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。
Claims (23)
1.一种判断新闻中主要关联公司的方法,其特征在于,包括如下步骤:
获取新闻数据,从所述新闻数据中提取每个公司及每个公司在所述新闻数据中出现的名称词,将公司记作comii∈[1,N],其中N表示所述新闻数据中出现N个公司,i表示第i个公司;
根据公司comi与所述新闻数据的相关度值reli和相关度动态阈值grad_threshold过滤非主要关联公司,确定所有主要关联公司;
输出主要关联公司结果。
2.如权利要求1所述的判断新闻中主要关联公司的方法,其特征在于,所述相关度值reli为根据所述新闻数据中的句子总数SEN_CNT、自然段总数PARA_CNT、comi的名称词在所述新闻数据中出现的句子数量sen_cnti和comi的名称词在所述新闻数据中出现的自然段数量para_cnti计算得到,所述相关度动态阈值grad_threshold为根据reli计算得到。
3.如权利要求2所述的判断新闻中主要关联公司的方法,其特征在于,所述新闻数据中的句子总数SEN_CNT、自然段总数PARA_CNT、comi的名称词在所述新闻数据中出现的句子数量sen_cnti和comi的名称词在所述新闻数据中出现的自然段数量para_cnti的统计方法为:
以句号、问号、感叹号、省略号和换行符作为分句标志,统计所述新闻数据中的句子总数,记为SEN_CNT;
统计所述新闻数据中的自然段总数,记为PARA_CNT;
统计所述新闻数据中出现comi的名称词的句子数量,记为sen_cnti;
统计所述新闻数据中出现comi的名称词的自然段数量,记为para_cnti。
4.如权利要求3所述的判断新闻中主要关联公司的方法,其特征在于,在统计所述新闻数据中的自然段总数时,所述新闻数据中的标题也算作一个自然段,并排除掉空白的自然段。
5.如权利要求3所述的判断新闻中主要关联公司的方法,其特征在于,在统计所述新闻数据中出现comi的名称词的自然段数量时,如果comi在标题中出现,para_cnti+=C,其中C为预设的大于0的系数。
8.如权利要求2所述的判断新闻中主要关联公司的方法,其特征在于,根据公司comi与所述新闻数据的相关度值reli和相关度动态阈值grad_threshold过滤非主要关联公司,确定所有主要关联公司,包括:
取comj及其相关数据,其中comjj∈[1,N],表示将公司按reli降序排列后的第j个公司;
如果N>F且相关度值relj小于相关度动态阈值grad_threshold,则comj不是主要关联公司,转到下下步,否则转到下一步,其中F为预设的大于0的阈值;
如果j等于N,转到下一步,否则j=j+1,转到第一步;
返回主要关联公司结果。
9.如权利要求1所述的判断新闻中主要关联公司的方法,其特征在于,所述根据公司comi与所述新闻数据的相关度值reli和相关度动态阈值grad_threshold过滤非主要关联公司,确定所有主要关联公司之前,还包括:
根据comi的名称词在所述新闻数据中出现的次数word_cnti来过滤非主要关联公司,确定所有主要关联公司。
10.如权利要求9所述的判断新闻中主要关联公司的方法,其特征在于,所述根据comi的名称词在所述新闻数据中出现的次数word_cnti来过滤非主要关联公司,确定所有主要关联公司,包括:
取comj及其相关数据,其中comjj∈[1,N],表示将公司按reli降序排列后的第j个公司;
如果comj没有在所述新闻数据的标题中出现并且relj<K or word_cntj=L,则comj不是主要关联公司,转到最后第二步,否则转到下一步,其中K和L为预设的大于0的阈值;
如果comj在所述新闻数据的标题中出现但没有在所述新闻数据的正文中出现,则comj不是主要关联公司,转到最后第二步,否则转到下一步;
如果comj在所述新闻数据的标题中出现,也在所述新闻数据的正文中出现,则comj是主要关联公司,转到最后第二步,否则转到根据公司comi与所述新闻数据的相关度值reli和相关度动态阈值grad_threshold过滤非主要关联公司,确定所有主要关联公司步骤;
如果j等于N,转到下一步,否则j=j+1,转到第一步;
返回主要关联公司结果。
11.如权利要求1至10中任意一项所述的判断新闻中主要关联公司的方法,其特征在于,在所述获取新闻数据,从所述新闻数据中提取每个公司及每个公司在所述新闻数据中出现的名称词,将公司记作comii∈[1,N],其中N表示所述新闻数据中出现N个公司,i表示第i个公司后,还包括:
根据每个公司与所述新闻数据的正文的相关度值的方差var、每个公司与其他公司的出现交叉度crossi、每个公司在所述新闻数据的正文中的有效影响范围scopei,以var、scopei和crossi中的至少一项或其组合来判断是否存在主要关联公司;
若不存在主要关联公司,则返回主要关联公司结果,若存在主要关联公司,则进行根据公司comi与所述新闻数据的相关度值reli和相关度动态阈值grad_threshold过滤非主要关联公司,确定所有主要关联公司步骤。
12.如权利要求11所述的判断新闻中主要关联公司的方法,其特征在于,所述每个公司与所述新闻数据的正文的相关度值的方差var的计算方式,包括:
以句号、问号、感叹号、省略号和换行符作为分句标志,统计所述新闻数据中的句子总数,记为SEN_CNT;
统计所述新闻数据中的自然段总数,记为PARA_CNT;
统计所述新闻数据的正文中出现comi的名称词的句子数量,记为con_sen_cnti;
统计所述新闻数据的正文中出现comi的名称词的自然段数量,记为con_para_cnti;
计算所有公司和所述新闻数据的正文的相关度值:
其中,A和B为预设的大于0的系数,且A+B=1;
计算公司和所述新闻数据的正文的相关度值con_reli的方差,记为var。
13.如权利要求11所述的判断新闻中主要关联公司的方法,其特征在于,所述每个公司在所述新闻数据的正文中的有效影响范围scopei的计算方式,包括:
预设一个有效影响范围列表,所述有效影响范围列表用于记录出现comi的句子及多个有效影响部分;
提取comi的所有有效有效部分,将所有有效影响部分合并到所述有效影响范围列表,得到有效影响范围scopei。
14.如权利要求13所述的判断新闻中主要关联公司的方法,其特征在于,所述有效影响部分是从出现comi的一个句子起到该句之后的第x个句子且包含第x个句子、或从出现comi的一个句子起到该自然段的最后一个句子且包含该自然段的最后一个句子、或从出现comi的一个句子起到下一个出现comi的句子且不含下一个出现comi的句子为止的所有句子,以先满足的条件为准,其中x是预设的有效范围阈值。
15.如权利要求11所述的判断新闻中主要关联公司的方法,其特征在于,所述每个公司与其他公司的出现交叉度crossi的计算方式,包括:
出现在comi有效影响范围scopei内的其他公司数量为出现交叉度crossi。
16.如权利要求11所述的判断新闻中主要关联公司的方法,其特征在于,根据每个公司与所述新闻数据的正文的相关度值的方差var来判断是否存在主要关联公司,包括:
如果var<M,那么所有的公司都不是主要关联公司,则不存在主要关联公司,否则存在主要关联公司,其中M为预设的大于0的阈值。
20.如权利要求11所述的判断新闻中主要关联公司的方法,其特征在于,在根据每个公司与所述新闻数据的正文的相关度值的方差var、每个公司与其他公司的出现交叉度crossi、每个公司在所述新闻数据的正文中的有效影响范围scopei和var、或scopei和crossi中的至少一项或其组合来判断是否存在主要关联公司之前,还包括:
判断N是否大于U,其中U为预设的大于0的阈值;
若N大于U,则进行判断是否存在主要关联公司的步骤;
若N不大于U,则跳过判断是否存在主要关联公司的步骤,转到根据公司comi与所述新闻数据的相关度值reli和相关度动态阈值grad_threshold过滤非主要关联公司,确定所有主要关联公司步骤。
21.判断新闻中主要关联公司的装置,其特征在于,包括:
提取公司数据模块,用于获取新闻数据,从所述新闻数据中提取每个公司及每个公司在所述新闻数据中出现的名称词,将公司记作comii∈[1,N],其中N表示所述新闻数据中出现N个公司,i表示第i个公司;
过滤非主要关联公司模块,用于根据公司comi与所述新闻数据的相关度值reli和相关度动态阈值grad_threshold过滤非主要关联公司,确定所有主要关联公司;
输出模块,用于输出主要关联公司结果。
22.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行如权利要求1至20中任一项权利要求所述判断新闻中主要关联公司的方法的步骤。
23.一种存储有计算机可读指令的存储介质,其特征在于,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行如权利要求1至20中任一项权利要求所述判断新闻中主要关联公司的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110366090.6A CN112926304B (zh) | 2021-04-06 | 2021-04-06 | 判断新闻中主要关联公司的方法及相关设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110366090.6A CN112926304B (zh) | 2021-04-06 | 2021-04-06 | 判断新闻中主要关联公司的方法及相关设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112926304A true CN112926304A (zh) | 2021-06-08 |
CN112926304B CN112926304B (zh) | 2021-11-09 |
Family
ID=76174151
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110366090.6A Active CN112926304B (zh) | 2021-04-06 | 2021-04-06 | 判断新闻中主要关联公司的方法及相关设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112926304B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104408093A (zh) * | 2014-11-14 | 2015-03-11 | 中国科学院计算技术研究所 | 一种新闻事件要素抽取方法与装置 |
US20150134502A1 (en) * | 2013-11-13 | 2015-05-14 | Bank Of America Corporation | Method and System for Aggregating Company Information |
CN111046173A (zh) * | 2019-11-08 | 2020-04-21 | 广州坚和网络科技有限公司 | 通过机器学习及上下文词性发现重要名词标签的方法 |
CN111291566A (zh) * | 2020-01-21 | 2020-06-16 | 北京明略软件系统有限公司 | 一种事件主体识别方法、装置、存储介质 |
CN112307364A (zh) * | 2020-11-25 | 2021-02-02 | 哈尔滨工业大学 | 一种面向人物表征的新闻文本发生地抽取方法 |
-
2021
- 2021-04-06 CN CN202110366090.6A patent/CN112926304B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150134502A1 (en) * | 2013-11-13 | 2015-05-14 | Bank Of America Corporation | Method and System for Aggregating Company Information |
CN104408093A (zh) * | 2014-11-14 | 2015-03-11 | 中国科学院计算技术研究所 | 一种新闻事件要素抽取方法与装置 |
CN111046173A (zh) * | 2019-11-08 | 2020-04-21 | 广州坚和网络科技有限公司 | 通过机器学习及上下文词性发现重要名词标签的方法 |
CN111291566A (zh) * | 2020-01-21 | 2020-06-16 | 北京明略软件系统有限公司 | 一种事件主体识别方法、装置、存储介质 |
CN112307364A (zh) * | 2020-11-25 | 2021-02-02 | 哈尔滨工业大学 | 一种面向人物表征的新闻文本发生地抽取方法 |
Non-Patent Citations (1)
Title |
---|
陆娜 等: "新闻文档实体重要性排序研究", 《图书情报工作》 * |
Also Published As
Publication number | Publication date |
---|---|
CN112926304B (zh) | 2021-11-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8285713B2 (en) | Image search using face detection | |
US8630972B2 (en) | Providing context for web articles | |
US9251248B2 (en) | Using context to extract entities from a document collection | |
US20090292698A1 (en) | Method for extracting a compact representation of the topical content of an electronic text | |
JP4797069B2 (ja) | キーワード管理プログラム、キーワード管理システムおよびキーワード管理方法 | |
CN111506727B (zh) | 文本内容类别获取方法、装置、计算机设备和存储介质 | |
CN103514213A (zh) | 词语提取方法及装置 | |
KR20120087058A (ko) | 연관 콘텐츠 제공 장치, 방법 및 컴퓨터 판독 가능한 기록 매체 | |
KR101059557B1 (ko) | 정보 검색 방법 및 이를 수행할 수 있는 프로그램이 수록된컴퓨터로 읽을 수 있는 기록 매체 | |
Wilkie et al. | Relating retrievability, performance and length | |
US20140289260A1 (en) | Keyword Determination | |
KR20130096004A (ko) | 문서 내의 테이블의 정보를 기반으로 한 테이블 자동분류 시스템 및 그 방법 | |
KR100973969B1 (ko) | 매체 편향의 효과를 완화하는 뉴스 서비스 시스템 및 방법 | |
US8838616B2 (en) | Server device for creating list of general words to be excluded from search result | |
JP5758349B2 (ja) | 文書カテゴライズ装置とその方法とプログラム | |
CN112926304B (zh) | 判断新闻中主要关联公司的方法及相关设备 | |
Iacobelli et al. | Finding new information via robust entity detection | |
JP4606349B2 (ja) | 話題画像抽出方法及び装置及びプログラム | |
CN115659046A (zh) | 基于ai大数据的技术交易推荐系统及方法 | |
Beliga et al. | Natural language processing and statistic: the first six months of the COVID-19 infodemic in Croatia | |
CN112231518B (zh) | 作品网络传播行为发现方法、系统、电子设备及存储介质 | |
US7630979B2 (en) | Information retrieval terminal | |
Kavila et al. | Extractive text summarization using modified weighing and sentence symmetric feature methods | |
CN114302227A (zh) | 基于容器采集的网络视频采集与解析的方法和系统 | |
KR101057075B1 (ko) | 정보 검색 방법 및 이를 수행할 수 있는 프로그램이 수록된컴퓨터로 읽을 수 있는 기록 매체 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |