CN111460784A - 分析文本信息的方法、系统和计算机存储介质 - Google Patents

分析文本信息的方法、系统和计算机存储介质 Download PDF

Info

Publication number
CN111460784A
CN111460784A CN202010170348.0A CN202010170348A CN111460784A CN 111460784 A CN111460784 A CN 111460784A CN 202010170348 A CN202010170348 A CN 202010170348A CN 111460784 A CN111460784 A CN 111460784A
Authority
CN
China
Prior art keywords
relationship
text information
information
group
sets
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010170348.0A
Other languages
English (en)
Other versions
CN111460784B (zh
Inventor
裘钢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suoyi Interactive Beijing Information Technology Co ltd
Original Assignee
Suoyi Interactive Beijing Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suoyi Interactive Beijing Information Technology Co ltd filed Critical Suoyi Interactive Beijing Information Technology Co ltd
Publication of CN111460784A publication Critical patent/CN111460784A/zh
Application granted granted Critical
Publication of CN111460784B publication Critical patent/CN111460784B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种分析文本信息的方法、系统和计算机存储介质,所述文本信息构成文本信息单元,每个文本信息单元包括至少两个信息维度,在每一个信息维度上,每个文本信息单元对应的信息相同或不同,对于一组由至少两个文本信息单元组成的文本信息集合,将其与另一组由至少两个文本信息单元组成的文本信息集合相对应进行分析,通过设定步骤,设定第一信息维度和要计算的关系;通过分析步骤,基于所述第一信息维度对所述一组文本信息集合和所述另一组文本信息集合进行分组,针对所述一组文本信息集合的全部或部分分组,基于设定的要计算的关系,在所述一组文本信息集合与所述另一组文本信息集合之间,计算两两分组之间的关系。

Description

分析文本信息的方法、系统和计算机存储介质
技术领域
本公开属于大数据处理技术领域,尤其适用于对文本信息之间自动生成关系的方法和系统。
背景技术
随着互联网和信息技术的发展,全球进入到信息爆炸时代,每天产生数以万计的各类信息充斥着人类生活的每一个角落。对于传统的通过阅读信息资讯来搜集数据、线索以作出决策的信息和数据工作者,例如金融投资公司中的行业研究分析人员、政府机关中的政策经济分析人员、高校和科研机构中的技术趋势研究人员以及一些信息检索人员等,面对海量信息,如何精准高效的发现有价值的情报信息、快速准确命中目标信息、挖掘海量信息中不易察觉的潜在关系,如果依然通过人工阅读和布尔运算的方式来寻求这些信息,显然是耗时巨大,效率低下的。
人工智能技术的产生,引领信息数据处理和挖掘走向了新的发展阶段。在金融行业中,依靠数学建模寻求各种不同维度的数据指标与企业财务预测以及股价预测之间的关联关系,推动了金融科技Fintech技术的产生和发展。对于纯数值型信息的处理,显然要更适合计算机的计算处理,而相比之下,对于文本型信息的处理,就显得更加复杂了。
本发明提出了一种自动处理文本信息之间关系的方法、系统和计算机存储介质,以通过将人工智能算法技术应用在文本信息处理中,来解决对海量信息的精准高效处理。
发明内容
对于某一类文本信息,当其具有至少两个相同的信息维度时,如何快速自动分析目标文本信息集合潜在的信息关系,是本发明要解决的技术问题。因此,本发明提出一种分析文本信息的方法、系统和计算机存储介质。
一种分析文本信息的方法,所述文本信息构成文本信息单元,每个文本信息单元包括至少两个信息维度,在每一个信息维度上,每个文本信息单元对应的信息相同或不同,对于一组由至少两个文本信息单元组成的文本信息集合,将其与另一组由至少两个文本信息单元组成的文本信息集合相对应进行分析,包括:
设定步骤,设定第一信息维度和要计算的关系;
分析步骤,基于所述第一信息维度对所述一组文本信息集合和所述另一组文本信息集合进行分组,针对所述一组文本信息集合的全部或部分分组,基于设定的要计算的关系,在所述一组文本信息集合与所述另一组文本信息集合之间,计算两两分组之间的关系。
基于所述第一信息维度对所述一组文本信息集合进行分组获得m1个分组, m1是正整数;按照设定规则从所述m1个分组中选择m1’个分组,m1’是小于等于m1的正整数;基于所述第一信息维度对所述另一组文本信息集合进行分组;针对所述m1’个分组计算所述一组文本信息集合和所述另一组文本信息集合的对应分组之间的关系。
按照设定规则从所述m1个分组选择m1’个分组,具体通过对m1个分组进行排序并选择前m1’个分组的方式实现,所述排序方式包括:
按照在每个分组中的所包含文本信息单元的数量排序;
基于所体现的第一信息维度的信息值给每个分组命名,按照分组名称排序;
或者,按照自定义方式排序。
所述针对所述m1’个分组计算所述一组文本信息集合和所述另一组文本信息集合的对应分组之间的关系,具体为:对于所述一组文本信息集合的m1’个分组的每一个分组,计算其与另一组文本信息集合的对应于所诉m1’分组的每一个分组之间的关系。
所述关系为引用/被引用关系、相关关系或自定义关系中的一种。
所述针对所述m1’个分组计算所述一组文本信息集合和所述另一组文本信息集合的对应分组之间的关系,具体为:对于所述一组文本信息集合的m1’个分组的每一个分组,计算其与另一组文本信息集合中与该分组相对应的分组之间的关系。
所述关系具体为对比关系。
所述分析步骤之后还包括呈现步骤,以呈现所述关系。
所述呈现步骤具体包括:通过在新窗口/界面、当前操作窗口/界面中至少一种方式下,呈现所述关系;以图形和/或表格方式呈现所述关系;以及,以静态和/或动态方式,呈现所述关系。
以表格方式呈现所述关系,所述关系通过数值表示,其中:所述分组在表格的行标题呈现,要计算的关系对在表格的列标题呈现;或者,所述分组在表格的列标题呈现,要计算的关系在表格的行标题呈现。
当有至少一个另一组文本信息集合时,对于每一所述另一组文本信息集合,用一张表格来呈现所述一组文本信息集合与所述另一组文本信息集合之间的关系,具体包括:
在行标题中,以所述一组文本信息集合中的m1’个分组中的每一个为参考,邻近依次呈现所述另一组文本信息集合全部m1’个分组,表格的列标题至少呈现所述要计算的关系以及其他分析指标;
或者,在列标题中,以所述一组文本信息集合中的m1’个分组中的每一个为参考,邻近依次呈现所述另一组文本信息集合全部m1’个分组,表格的行标题至少呈现所述要计算的关系以及其他分析指标。
当有至少一个另一组文本信息集合时,用一张表格来呈现所述一组文本信息和所述至少一个另一组文本信息集合之间的关系,具体包括:
在行标题中,以所述一组文本信息集合中的m1’个分组中的每一个为参考,邻近依次呈现所述至少一个另一组文本信息集合中的每一个集合中的与之对应的分组,表格的列标题至少呈现所述要计算的关系以及其他分析指标;
或者,在列标题中,以所述一组文本信息集合中的m1’个分组中的每一个为参考,邻近依次呈现所述至少一个另一组文本信息集合中的每一个集合中的与之对应的分组,表格的行标题至少呈现所述要计算的关系以及其他分析指标。
进一步包括以下至少一种呈现方式:所述关系通过数值表示;表格中表示关系的单元格附有超链接,使得点击该单元格,能够自动生成与所述关系对应的逻辑表达式并链接到展示该逻辑表达式的窗口/界面。
分析步骤之前,还包括分集步骤;
所述设定步骤还包括设定分集参数;分集步骤,基于分集参数将所述一组文本信息集合和所述至少一个另一组文本信息集合分别分成j个文本信息子集对,j为正整数;对于j个文本信息子集对中的全部或部分子集对,针对每一个子集对执行后续步骤。
所述分集参数是时间度量,对于每个文本信息子集对,以空间方式和/或动态变化方式呈现每个文本信息子集对经过分析步骤所获得的关系。
一种分析文本信息的系统,所述文本信息构成文本信息单元,每个文本信息单元包括至少两个信息维度,在每一个信息维度上,每个文本信息单元对应的信息相同或不同,对于一组由至少两个文本信息单元组成的文本信息集合,将其与另一组由至少两个文本信息单元组成的文本信息集合相对应进行分析,包括:
设定模块,用于设定第一信息维度和要计算的关系;
分析模块,用于基于所述第一信息维度对所述一组文本信息集合和所述另一组文本信息集合进行分组,针对所述一组文本信息集合的全部或部分分组,基于设定的要计算的关系,在所述一组文本信息集合与所述另一组文本信息集合之间,计算两两分组之间的关系。
所述分析模块进一步包括:
第一分组子模块,用于基于所述第一信息维度对所述一组文本信息集合进行分组获得m1个分组,m1是正整数;按照一定规则从所述m1个分组中的选择m1’个分组,m1’是小于等于m1的正整数;
第二分组子模块,用于基于所述第一信息维度对所述另一组文本信息集合进行分组;
计算子模块,用于针对所述m1’个分组计算所述一组文本信息集合和所述另一组文本信息集合的对应分组之间的关系。
分析模块还包括选择子模块,用于按照一定规则从所述m1个分组选择m1’个分组,具体通过对m1个分组进行排序并选择前m1’个分组的方式实现,所述排序方式包括:
按照在每个分组中的所包含文本信息单元的数量排序;
基于所体现的第一信息维度的信息值给每个分组命名,按照分组名称排序;
或者,按照自定义方式排序。
所述分析模块具体用于:对于所述一组文本信息集合的m1’个分组的每一个分组,计算其与另一组文本信息集合的对应于所诉m1’分组的每一个分组之间的关系。
所述关系为引用/被引用关系、相关关系或自定义关系中的一种。
所述分析模块具体用于:对于所述一组文本信息集合的m1’个分组的每一个分组,计算其与另一组文本信息集合中与该分组相对应的分组之间的关系。
所述关系具体为对比关系。
还包括呈现模块以呈现所述关系。
所述呈现模块具体用于:通过在新窗口/界面、当前操作窗口/界面中至少一种方式下,呈现所述关系;以图形和/或表格方式呈现所述关系;以及,以静态和/或动态方式,呈现所述关系。
所述呈现模块用于以表格方式呈现所述关系,所述关系通过数值表示,其中:
所述分组在表格的行标题呈现,要计算的关系对在表格的列标题呈现。
或者,所述分组在表格的列标题呈现,要计算的关系在表格的行标题呈现。
当有至少一个另一组文本信息集合时,对于每一所述另一组文本信息集合,用一张表格来呈现所述一组文本信息集合与所述另一组文本信息集合之间的关系,所述呈现模块具体用于:
在行标题中,以所述一组文本信息集合中的m1’个分组中的每一个为参考,邻近依次呈现所述另一组文本信息集合全部m1’个分组,表格的列标题至少呈现所述要计算的关系以及其他分析指标;
或者,在列标题中,以所述一组文本信息集合中的m1’个分组中的每一个为参考,邻近依次呈现所述另一组文本信息集合全部m1’个分组,表格的行标题至少呈现所述要计算的关系以及其他分析指标。
当有至少一个另一组文本信息集合时,用一张表格来呈现所述一组文本信息和所述至少一个另一组文本信息集合之间的关系,所述呈现模块具体用于:
在行标题中,以所述一组文本信息集合中的m1’个分组中的每一个为参考,邻近依次呈现所述至少一个另一组文本信息集合中的每一个集合中的与之对应的分组,表格的列标题至少呈现所述要计算的关系以及其他分析指标;
或者,在列标题中,以所述一组文本信息集合中的m1’个分组中的每一个为参考,邻近依次呈现所述至少一个另一组文本信息集合中的每一个集合中的与之对应的分组,表格的行标题至少呈现所述要计算的关系以及其他分析指标。
所述呈现模块用于实现包括以下至少一种方式:
所述关系通过数值表示;
表格中表示关系的单元格附有超链接,使得点击该单元格,能够自动生成与所述关系对应的逻辑表达式并链接到展示该逻辑表达式的窗口/界面。
还包括分集模块,
设定模块,还用于设定分集参数;
分集模块,用于基于分集参数将所述一组文本信息集合和所述至少一个另一组文本信息集合分别分成j个文本信息子集对,j为正整数;
分析模块对于j个文本信息子集对中的全部或部分子集对,针对每一个子集对执行相应的操作。
所述分集参数是时间度量,对于每个文本信息子集对,以空间方式和/或动态变化方式呈现每个文本信息子集对经过分析步骤所获得的关系。
一种计算机存储介质,所述计算机存储介质上存储有实现分析文本信息的程序,所述程序被处理器执行以实现如前所述的分析文本信息的方法的步骤。
根据上述技术方案,本发明实现了自动处理文本信息之间关系,能够对海量文本数据进行一键化操作,自动发现潜在的有价值信息,为信息使用者提供用以作出分析和决策的参考信息,大大提高了信息利用效率。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
通过参照附图详细描述各示例性实施例,以上及其他特征和优点对于本领域普通技术人员而言将变得更为明显,在附图中:
图1为对一个文本信息集合进行分析处理的示意图;
图2为对一个文本信息集合与另外至少一组文本信息集合进行比较并分析处理的示意图;
图3为以表格的方式呈现关系的一个具体实施例的示意图。
具体实施方式
为了使本公开的技术方案和优点更加清楚,下面结合附图和具体实施例对本公开进行详细描述。
在本发明中,文本信息,是指以文本型为主、同时也包括其他类型,例如数值型信息的广义的文本信息。所述文本信息构成文本信息单元,每个文本信息单元包括至少两个信息维度,在每一个信息维度上,每个文本信息单元对应的信息相同或不同。
所述文本信息单元,是指按照一定组成形式构成的电子化的文本信息的单元,以文本型数据为主,也包括其他数据类型,例如数值型、图片型等;所述文本信息单元,既可以是以文本信息单元整体存储的,也可以是分布式的或碎片化的存储方式。
例如,所述文本信息单元,可以是一篇专利文献、一份个人档案、一份公司年报、一份投资报告等等。
在每一个信息维度上,每个文本信息单元对应的信息,既可以是文本信息单元中明示的信息,例如直接记载的文字,也可以是文本信息单元中隐含的信息,例如计算或加工出来的信息;例如一篇专利申请中申请日期是明示的信息,说明书的字数是隐含的信息,例如,一份个人档案中自动分析的性格测评,一份公司年报中分析计算出来的财务预测,一份投资报告中分析出来的评价或评级,这些都是隐含的信息。
以一组个人档案为例,每个档案都包括姓名、性别、出生日期、学历、毕业学校、工作经历等信息维度,在同一信息维度上,如出生日期,每个档案的值可能相同或不同。
对于一组由如上所述的文本信息单元构成的文本信息集合,每个文本信息单元包括至少两个信息维度,在每一个信息维度上,每个文本信息单元对应的信息相同或不同。通常而言,对于这样一组文本信息集合,关注点可以是这组文本信息集合内部的关系,即该组文本信息集合与自身之间的关系,可以是这组文本信息集合与另一组文本信息集合之间的关系,也可以是这组文本信息集合与包含这组文本信息集合的全集之间的关系,等等,而上述几种情况,均可以概括分析为一组文本信息集合与另一组文本信息集合之间的关系;优选地,基于分析一组文本信息集合与另一组文本信息集合之间的关系,可以按照类似方式,重复执行,分析得到一组文本信息集合与至少一个另一组文本信息集合之间的关系。而上述实现方式,均基于本发明所提出的分析文本信息的方法。
一种分析文本信息的方法,所述文本信息构成文本信息单元,每个文本信息单元包括至少两个信息维度,在每一个信息维度上,每个文本信息单元对应的信息相同或不同,对于一组由至少两个文本信息单元组成的文本信息集合,将其与另一组由至少两个文本信息单元组成的文本信息集合相对应进行分析,包括:
设定步骤,设定第一信息维度和要计算的关系;优选地,还包括设定分集参数。
分析步骤,基于所述第一信息维度对所述一组文本信息集合和所述另一组文本信息集合进行分组,针对所述一组文本信息集合的全部或部分分组,基于设定的要计算的关系,在所述一组文本信息集合与所述另一组文本信息集合之间,计算两两分组之间的关系。
优选地,还包括呈现步骤,以呈现所述关系。
优选地,在所述分析步骤之前还包括分集步骤,以根据分集参数将所述一组文本信息集合和另一组文本信息集合分别分成j个文本信息子集对,j为正整数,并对其中的全部或部分子集对,执行分析步骤。
设定步骤
设定步骤,设定第一信息维度和要计算的关系;
优选地,还包括设定分集参数。
分析步骤
分析步骤,基于所述第一信息维度对所述一组文本信息集合和所述另一组文本信息集合进行分组,针对所述一组文本信息集合的全部或部分分组,基于设定的要计算的关系,在所述一组文本信息集合与所述另一组文本信息集合之间,计算两两分组之间的关系。
进一步,还包括:
分组步骤,基于第一信息维度对所述一组文本信息集合进行分组获得m1 个分组m1为正整数;按照一定规则从所述m1个分组中的选择m1’个分组, m1’是小于等于m1的正整数;
基于所述第一信息维度对所述另一组文本信息集合进行分组;
优选地,按照一定规则从所述m1个分组选择m1’个分组,具体通过对 m1个分组进行排序并选择前m1’个分组的方式实现,所述排序方式包括:
按照在每个分组中的所包含文本信息单元的数量排序;
基于所体现的第一信息维度的信息值给每个分组命名,按照分组名称排序;
或者,按照自定义方式排序。
计算步骤,基于设定的要计算的关系,在所述一组文本信息集合与所述另一组文本信息集合之间,计算两两分组之间的关系;所述关系可以是引用/被引用关系、相关关系、对比关系或者其他自定义关系;所述关系可以是通过数值、向量、或矩阵来表达。
优选地,所述关系可以是两两文本信息单元之间的相关度的平均值、可以是两两文本信息单元之间的引用/被引用关系统计值、还可以是文本信息分组所包含的文本信息单元的数量、也可以是文本信息分组包含的文本信息单元数量之间的比值、可以是文本信息分组之间的两两文本信息单元之间的相关度矩阵、也可以是文本信息分组之间的两两文本信息单元之间的引用/被引用关系矩阵;除列举的上述关系之外,其他可定义的逻辑关系均落入本发明的保护范围之内;所述关系,不限于一种关系,可以是多种关系,以及多种关系的组合。
关于计算两两分组之间的关系,包括以下两种方式:
对于所述一组文本信息集合的m1’个分组的每一个分组,计算其与另一组文本信息集合的对应于所诉m1’分组的每一个分组之间的关系。
优选地,上述关系是引用/被引用关系、相关关系或自定义关系中的一种。
对于所述一组文本信息集合的m1’个分组的每一个分组,计算其与另一组文本信息集合中与该分组相对应的分组之间的关系。
优选地,上述关系是对比关系。
呈现步骤
呈现步骤,用于呈现所述关系。采取以下方式中的至少一种:
通过在新窗口/界面、当前操作窗口/界面中至少一种方式下,呈现所述关系;
以图形和/或表格方式呈现所述关系;
以及,以静态和/或动态方式,呈现所述关系。
当采取以表格方式呈现时,通过以下方式实现:
所述关系通过数值表示;所述分组在表格的行标题呈现,要计算的关系对在表格的列标题呈现,或者,所述分组在表格的列标题呈现,要计算的关系在表格的行标题呈现;突出显示作为基准的信息文本分组的行标题;所述突出显示,例如可以是,颜色突出、背景突出、或位置突出等。
优选地,表格还包括若干其他分析指标。
表格中表示关系的单元格附有超链接,使得点击该单元格,能够自动生成与所述关系对应的逻辑表达式并链接到展示该逻辑表达式的窗口/界面,和/或自动链接到与所述关系相关的文本信息结果窗口/界面。
例如,图1所示的表格中关系具体为被引用次数,列标题以横坐标的 Group1、Group2、Group3、……、Groupt分类为基准,对于Group1,其包含的文本信息单元被引用的两个纵坐标的文本信息分组分别是Group3和Groupt,则分别依次分布在Group1相邻位置上,关系单元格中的数值分别表示Group1中的文本信息单元分别被Group3和Groupt中文本信息单元引用的次数;点击该关系单元格,例如点击关系值为146的单元格,其中146表示被引用次数为 146次,自动生成表达Group1中被Group3引用的文本信息结果的逻辑表达式,例如,“Group1 and refs/Group3”,显示在弹出的新窗口中。图1所示的柱状图仅是图形呈现的一种的方式,图形呈现还包括其他方式,例如和弦图、桑基图、思维导图、树状图等。
当需要分析一组文本信息集合与两个以上另一组文本信息集合的关系时,如果采用方式为,对于所述一组文本信息集合的m1’个分组的每一个分组,计算其与另一组文本信息集合的对应于所诉m1’分组的每一个分组之间的关系,则,对于每一所述另一组文本信息集合,用一张表格来呈现所述一组文本信息集合与所述另一组文本信息集合之间的关系:
在行标题中,以所述一组文本信息集合中的m1’个分组中的每一个为参考,邻近依次呈现所述另一组文本信息集合全部m1’个分组,表格的列标题至少呈现所述要计算的关系以及其他分析指标;
或者,在列标题中,以所述一组文本信息集合中的m1’个分组中的每一个为参考,邻近依次呈现所述另一组文本信息集合全部m1’个分组,表格的行标题至少呈现所述要计算的关系以及其他分析指标。
当需要分析一组文本信息集合与两个以上另一组文本信息集合的关系时,如果采用方式为,对于所述一组文本信息集合的m1’个分组的每一个分组,计算其与另一组文本信息集合中与该分组相对应的分组之间的关系,则,用一张表格来呈现所述一组文本信息和所述至少一个另一组文本信息集合之间的关系:
在行标题中,以所述一组文本信息集合中的m1’个分组中的每一个为参考,邻近依次呈现所述至少一个另一组文本信息集合中的每一个集合中的与之对应的分组,表格的列标题至少呈现所述要计算的关系以及其他分析指标;
或者,在列标题中,以所述一组文本信息集合中的m1’个分组中的每一个为参考,邻近依次呈现所述至少一个另一组文本信息集合中的每一个集合中的与之对应的分组,表格的行标题至少呈现所述要计算的关系以及其他分析指标。
例如,图2所示的表格中关系具体为相同分组在不同文本信息集合中所包含的文本信息单元数量的比较,分析比较第一文本信息集合和p个其他文本信息集合之间的关系,对于每一个相同分组Group1、Group2、Group3、……、 Groupk,行标题以第一文本信息集合的Group1为基准,另外p个其他信息集合在Group1上的分组与第一文本信息集合的Group1分组相邻,列标题分别对应于在相同分组上数量的比较、以及其他可考量的参数;表格中的单元格附有超链接,例如点击关系值为146的单元格,自动生成表达Group1中被Group3引用的文本信息结果的逻辑表达式,例如,“Group1 and refs/Group3”,显示在弹出的新窗口中。
分集步骤
分集步骤,基于分集参数将所述一组文本信息集合和另一组文本信息集合分别分成j个文本信息子集对,j为正整数;对于j个文本信息子集对中的全部或部分子集对,针对每一个子集对执行后续步骤。
优选地,所述分集参数为时间度量,对于对于每个文本信息子集对,以空间方式和/或动态变化方式呈现每个文本信息子集对经过分析步骤所获得的关系。
实施例1
在一组文献中,包含file1、file2、……、filen;每个文献都包括标题、作者姓名、作者单位、发表时间、摘要、关键词、正文、结语和引用文献等信息维度,欲分析该组文献内部的关系。
在界面上设定,第一信息维度为作者单位,要计算的关系为被引用关系,第二信息维度为年表示的发表时间。
点击界面按钮以触发对该组文献的自动分析过程如下:
步骤1,以发表时间为第二信息维度,对所述文献分集,获得2010-2019年分别对应的10个文献子集;
对每个文献子集执行以下步骤2-4,直到10个文献子集都被分析完,然后执行步骤5:
步骤2,以作者单位为第1个信息维度,对所述文献分组,获得m1个分组,例如,分别为清华大学、北京大学、麻省理工学院、……;
步骤3,按照每个分组所包含的文献数量从多到少,进行排序,例如为清华大学、北京大学、浙江大学、航天五院、麻省理工学院、……、信息通信技术研究院;选择排序前m1’个分组,例如前5个分组为清华大学、北京大学、浙江大学、航天五院、麻省理工学院;
步骤4,计算这5个分组中的每一个分组与该分组及其他分组之间两两文本信息之间的被引用关系,其中所述被引用关系是指每个分组中的文献被各分组中的文献引用篇数,例如清华大学分组中的文献被浙江大学分组中文献引用篇数为10,即清华大学分组中有10篇文献被浙江大学分组所引用。
步骤5,在新的窗口,动态地逐年呈现2010年-2019年,每年发表文献数量排名前5的五家单位之间的被引用关系变化图,例如通过和弦图表示,以及弹出excel表格,显示10年中每年,发表文献数量排名前5的5家单位之间被引用文献数量,单击单元格,跳转到新的窗口来呈现被引用文献的逻辑表达式。
在excel表格中,依次以清华大学、北京大学、浙江大学、航天五院、麻省理工学院为基础,在邻近行显示与之具有被引用关系的分组,作为基础的分组被突出显示,例如字体、颜色、显示位置等。
实施例2
在一组文献集合Set1中,包含file1、file2、……、filex,是关于路由算法;另外一组文献集合Setq中,包含file1、file2、……、filey,是关于交换机;每个文献都包括标题、作者姓名、作者单位、发表时间、摘要、关键词、正文、结语和引用文献等信息维度。欲分析该两组文献之间的对比关系。
在界面上设定第一信息维度为作者单位,要计算的关系为被引用关系,分集参数为年表示的发表时间。
点击界面按钮以触发对该组文献的自动分析过程如下:
步骤1,以发表时间为分集参数,对所述两文献集合分集,获得2010-2019 年分别对应的10个文献子集对;
对每个文献子集执行以下步骤2-4,直到10个文献子集都被分析完,然后执行步骤5:
步骤2,以作者单位为第1个信息维度,对所述Set1的文献分组,获得m1 个分组,例如,分别为清华大学、北京大学、麻省理工学院、……;对所述 Set2的文献分组,获得n个分组,例如分别为浙江大学、北京邮电大学、麻省理工学院、……、北京航空航天大学;在m1个分组中选择排序前m1’个分组,例如前5个分组为清华大学、北京大学、浙江大学、航天五院、麻省理工学院;
步骤3,对于5个分组的每一个分组,分别计算不同文献子集中所对应的分组之间的关系,例如在路由算法的集合中,清华大学分组中的文献被引用数量为275篇,而在交换机的集合中,清华大学分组中的文献被引用数量为158 篇。
步骤5,在新的窗口,动态地逐年呈现2010年-2019年,每年发表路由算法和交换机相关的文献的单位,清华大学的路由算法文献被引用数量要远高于交换机相关文献被引用的数量。单击单元格,跳转到新的窗口来呈现被引用文献的逻辑表达式。
在excel表格中,依次以清华大学、北京大学、浙江大学、航天五院、麻省理工学院为基础,在邻近行显示与之具有被应用关系的分组,作为基础的分组被突出显示,例如字体、颜色、显示位置等。
实施例3
有两组专利文献,分别是苹果和华为公司的发明专利文献集合,两组文献集合均包括例如发明名称、IPC分类号、发明人、申请时间、公开时间、引用文献等信息维度;其中设定的第一信息维度为IPC分类号的小类,而要计算的关系为所包含专利文献的数量。点击界面按钮以触发对该组文献的自动分析过程如下:
步骤1,以IPC大类为第1个信息维度,对所述苹果公司的专利文献分组,获得m1个分组;对所述Set2的文献分组,获得n个分组;在m1个分组中选择排序前10个分组,例如G06F、H04W、H04L、H04N、G09G、H04M等;
步骤2,对于这10个分组的每一个分组,分别计算在苹果公司和华为公司之间,各自包含的专利文献的数量。
步骤3,在新的窗口呈现两家公司的10个分组分别所包含的专利文献的数量。单击单元格,跳转到新的窗口来呈现被引用文献的逻辑表达式。
如图3所示,在新的窗口中出现excel表格来呈现两家公司在苹果公司排名前十的IPC小类上的数量对比关系,其中用黑色字体和灰色字体分别来区分苹果公司和华为公司在同一个IPC小类上的分组,点击“数量”列中的单元格,可以跳转到相应的逻辑表达式和结果显示页面。
上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
除非另外特别说明,否则应当理解,在整个说明书中,利用诸如“处理”、“计算”、“计算出”、“确定”和“识别”等术语的论述是指计算设备的动作或过程,诸如一个或多个计算机或类似的电子计算设备,其操纵或转换表示为计算平台的存储器、寄存器或其他信息存储设备、传输设备或显示设备内的物理电子量或磁量的数据。
本文论述的一个或多个系统不限于任何特定的硬件架构或配置。计算设备可以包括部件的提供以一个或多个输入为条件的结果的任何合适的布置。合适的计算设备包括基于多用途微处理器的计算机系统,其访问存储的软件,该软件将计算系统从通用计算设备编程或配置为实现本公开主题的一种或多种具体实施的专用计算设备。可以使用任何合适的编程、脚本或其他类型的语言或语言的组合来在用于编程或配置计算设备的软件中实现本文包含的教导内容。
本文所公开的方法的具体实施可以在这样的计算设备的操作中执行。上述示例中呈现的框的顺序可以变化,例如,可以将框重新排序、组合或者分成子框。某些框或过程可以并行执行。
本文中“适用于”或“被配置为”的使用意味着开放和包容性的语言,其不排除适用于或被配置为执行额外任务或步骤的设备。另外,“基于”的使用意味着开放和包容性,因为“基于”一个或多个所述条件或值的过程、步骤、计算或其他动作在实践中可以基于额外条件或超出所述的值。本文包括的标题、列表和编号仅是为了便于解释而并非旨在为限制性的。
还将理解的是,虽然术语“第一”、第二”等可能在本文中用于描述各种元素,但是这些元素不应当被这些术语限定。这些术语只是用于将一个元件与另一元件区分开。例如,第一节点可以被称为第二节点,并且类似地,第二节点可以被称为第一节点,其改变描述的含义,只要所有出现的“第一节点”被一致地重命名并且所有出现的“第二节点”被一致地重命名。第一节点和第二节点都是节点,但它们不是同一个节点。
本文中所使用的术语仅仅是为了描述特定具体实施并非旨在对权利要求进行限制。如在本具体实施的描述和所附权利要求中所使用的那样,单数形式的“一个”和“该”旨在也涵盖复数形式,除非上下文清楚地另有指示。还将理解的是,本文中所使用的术语“和/或”是指并且涵盖相关联的所列出的项目中的一个或多个项目的任何和全部可能的组合。还将理解的是,术语“包括”本说明书中使用时是指定存在所陈述的特征、整数、步骤、操作、元件或部件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、部件或其分组。
如本文所使用的,术语“如果”可以被解释为表示“当所述先决条件为真时”或“在所述先决条件为真时”或“响应于确定”或“根据确定”或“响应于检测到”所述先决条件为真,具体取决于上下文。类似地,短语“如果确定 [所述先决条件为真]”或“如果[所述先决条件为真]”或“当[所述先决条件为真]时”被解释为表示“在确定所述先决条件为真时”或“响应于确定”或“根据确定”所述先决条件为真或“当检测到所述先决条件为真时”或“响应于检测到”所述先决条件为真,具体取决于上下文。
本发明的前述描述和概述应被理解为在每个方面都是例示性和示例性的,而非限制性的,并且本文所公开的本发明的范围不仅由例示性具体实施的详细描述来确定,而是根据专利法允许的全部广度。应当理解,本文所示和所述的具体实施仅是对本发明原理的说明,并且本领域的技术人员可以在不脱离本发明的范围和实质的情况下实现各种修改。
上文所列出的一系列的详细说明仅仅是针对本公开的可行性实施方式的具体说明,它们并非用以限制本公开的保护范围,凡未脱离本公开技艺精神所作的等效实施方式或变更均应包含在本公开的保护范围之内。

Claims (31)

1.一种分析文本信息的方法,所述文本信息构成文本信息单元,每个文本信息单元包括至少两个信息维度,在每一个信息维度上,每个文本信息单元对应的信息相同或不同,对于一组由至少两个文本信息单元组成的文本信息集合,将其与另一组由至少两个文本信息单元组成的文本信息集合相对应进行分析,包括:
设定步骤,设定第一信息维度和要计算的关系;
分析步骤,基于所述第一信息维度对所述一组文本信息集合和所述另一组文本信息集合进行分组,针对所述一组文本信息集合的全部或部分分组,基于设定的要计算的关系,在所述一组文本信息集合与所述另一组文本信息集合之间,计算两两分组之间的关系。
2.根据权利要求1所述的方法,其特征在于:
基于所述第一信息维度对所述一组文本信息集合进行分组获得m1个分组,m1是正整数;按照设定规则从所述m1个分组中选择m1’个分组,m1’是小于等于m1的正整数;
基于所述第一信息维度对所述另一组文本信息集合进行分组;
针对所述m1’个分组计算所述一组文本信息集合和所述另一组文本信息集合的对应分组之间的关系。
3.根据权利要求2所述的方法,其中,其特征在于:按照设定规则从所述m1个分组选择m1’个分组,具体通过对m1个分组进行排序并选择前m1’个分组的方式实现,所述排序方式包括:
按照在每个分组中的所包含文本信息单元的数量排序;
基于所体现的第一信息维度的信息值给每个分组命名,按照分组名称排序;
或者,按照自定义方式排序。
4.根据权利要求2或3所述的方法,其特征在于:所述针对所述m1’个分组计算所述一组文本信息集合和所述另一组文本信息集合的对应分组之间的关系,具体为:
对于所述一组文本信息集合的m1’个分组的每一个分组,计算其与另一组文本信息集合的对应于所诉m1’分组的每一个分组之间的关系。
5.根据权利要求4所述的方法,其特征在于:所述关系为引用/被引用关系、相关关系或自定义关系中的一种。
6.根据权利要求2或3所述的方法,其特征在于:所述针对所述m1’个分组计算所述一组文本信息集合和所述另一组文本信息集合的对应分组之间的关系,具体为:
对于所述一组文本信息集合的m1’个分组的每一个分组,计算其与另一组文本信息集合中与该分组相对应的分组之间的关系。
7.根据权利要求6所述的方法,其特征在于:所述关系具体为对比关系。
8.根据权利要求1-7之一所述的方法,其特征在于:所述分析步骤之后还包括呈现步骤,以呈现所述关系。
9.根据权利要求8所述的方法,其特征在于:所述呈现步骤具体包括:
通过在新窗口/界面、当前操作窗口/界面中至少一种方式下,呈现所述关系;
以图形和/或表格方式呈现所述关系;
以及,以静态和/或动态方式,呈现所述关系。
10.根据权利要求9所述的方法,其特征在于:以表格方式呈现所述关系,所述关系通过数值表示,其中:
所述分组在表格的行标题呈现,要计算的关系对在表格的列标题呈现;
或者,所述分组在表格的列标题呈现,要计算的关系在表格的行标题呈现。
11.根据权利要求4所述的方法,进一步,当有至少一个另一组文本信息集合时,对于每一所述另一组文本信息集合,用一张表格来呈现所述一组文本信息集合与所述另一组文本信息集合之间的关系,具体包括:
在行标题中,以所述一组文本信息集合中的m1’个分组中的每一个为参考,邻近依次呈现所述另一组文本信息集合全部m1’个分组,表格的列标题至少呈现所述要计算的关系以及其他分析指标;
或者,在列标题中,以所述一组文本信息集合中的m1’个分组中的每一个为参考,邻近依次呈现所述另一组文本信息集合全部m1’个分组,表格的行标题至少呈现所述要计算的关系以及其他分析指标。
12.根据权利要求6所述的方法,其特征在于:当有至少一个另一组文本信息集合时,用一张表格来呈现所述一组文本信息和所述至少一个另一组文本信息集合之间的关系,具体包括:
在行标题中,以所述一组文本信息集合中的m1’个分组中的每一个为参考,邻近依次呈现所述至少一个另一组文本信息集合中的每一个集合中的与之对应的分组,表格的列标题至少呈现所述要计算的关系以及其他分析指标;
或者,在列标题中,以所述一组文本信息集合中的m1’个分组中的每一个为参考,邻近依次呈现所述至少一个另一组文本信息集合中的每一个集合中的与之对应的分组,表格的行标题至少呈现所述要计算的关系以及其他分析指标。
13.根据权利要求11或12所述的方法,其特征在于:进一步包括以下至少一种呈现方式:
所述关系通过数值表示;
表格中表示关系的单元格附有超链接,使得点击该单元格,能够自动生成与所述关系对应的逻辑表达式并链接到展示该逻辑表达式的窗口/界面。
14.根据权利要求1所述的方法,其特征在于:分析步骤之前,还包括分集步骤;
所述设定步骤还包括设定分集参数;
分集步骤,基于分集参数将所述一组文本信息集合和所述至少一个另一组文本信息集合分别分成j个文本信息子集对,j为正整数;
对于j个文本信息子集对中的全部或部分子集对,针对每一个子集对执行后续步骤。
15.根据权利要求14所述的方法,所述分集参数是时间度量,对于每个文本信息子集对,以空间方式和/或动态变化方式呈现每个文本信息子集对经过分析步骤所获得的关系。
16.一种分析文本信息的系统,所述文本信息构成文本信息单元,每个文本信息单元包括至少两个信息维度,在每一个信息维度上,每个文本信息单元对应的信息相同或不同,对于一组由至少两个文本信息单元组成的文本信息集合,将其与另一组由至少两个文本信息单元组成的文本信息集合相对应进行分析,包括:
设定模块,用于设定第一信息维度和要计算的关系;
分析模块,用于基于所述第一信息维度对所述一组文本信息集合和所述另一组文本信息集合进行分组,针对所述一组文本信息集合的全部或部分分组,基于设定的要计算的关系,在所述一组文本信息集合与所述另一组文本信息集合之间,计算两两分组之间的关系。
17.根据权利要求16所述的系统,其特征在于:所述分析模块进一步包括:
第一分组子模块,用于基于所述第一信息维度对所述一组文本信息集合进行分组获得m1个分组,m1是正整数;按照一定规则从所述m1个分组中的选择m1’个分组,m1’是小于等于m1的正整数;
第二分组子模块,用于基于所述第一信息维度对所述另一组文本信息集合进行分组;
计算子模块,用于针对所述m1’个分组计算所述一组文本信息集合和所述另一组文本信息集合的对应分组之间的关系。
18.根据权利要求17所述的系统,其特征在于:分析模块还包括选择子模块,用于按照一定规则从所述m1个分组选择m1’个分组,具体通过对m1个分组进行排序并选择前m1’个分组的方式实现,所述排序方式包括:
按照在每个分组中的所包含文本信息单元的数量排序;
基于所体现的第一信息维度的信息值给每个分组命名,按照分组名称排序;
或者,按照自定义方式排序。
19.根据权利要求17或18所述的系统,其特征在于:所述分析模块具体用于:
对于所述一组文本信息集合的m1’个分组的每一个分组,计算其与另一组文本信息集合的对应于所诉m1’分组的每一个分组之间的关系。
20.根据权利要求19所述的系统,其特征在于:所述关系为引用/被引用关系、相关关系或自定义关系中的一种。
21.根据权利要求17或18所述的系统,其特征在于:所述分析模块具体用于:
对于所述一组文本信息集合的m1’个分组的每一个分组,计算其与另一组文本信息集合中与该分组相对应的分组之间的关系。
22.根据权利要求21所述的系统,其特征在于:所述关系具体为对比关系。
23.根据权利要求16-22之一所述的系统,其特征在于:还包括呈现模块以呈现所述关系。
24.根据权利要求23所述的系统,其特征在于:所述呈现模块具体用于:通过在新窗口/界面、当前操作窗口/界面中至少一种方式下,呈现所述关系;
以图形和/或表格方式呈现所述关系;
以及,以静态和/或动态方式,呈现所述关系。
25.根据权利要求24所述的系统,其特征在于:所述呈现模块用于以表格方式呈现所述关系,所述关系通过数值表示,其中:
所述分组在表格的行标题呈现,要计算的关系对在表格的列标题呈现。
或者,所述分组在表格的列标题呈现,要计算的关系在表格的行标题呈现。
26.根据权利要求19所述的系统,其特征在于:当有至少一个另一组文本信息集合时,对于每一所述另一组文本信息集合,用一张表格来呈现所述一组文本信息集合与所述另一组文本信息集合之间的关系,所述呈现模块具体用于:
在行标题中,以所述一组文本信息集合中的m1’个分组中的每一个为参考,邻近依次呈现所述另一组文本信息集合全部m1’个分组,表格的列标题至少呈现所述要计算的关系以及其他分析指标;
或者,在列标题中,以所述一组文本信息集合中的m1’个分组中的每一个为参考,邻近依次呈现所述另一组文本信息集合全部m1’个分组,表格的行标题至少呈现所述要计算的关系以及其他分析指标。
27.根据权利要求21所述的系统,其特征在于:当有至少一个另一组文本信息集合时,用一张表格来呈现所述一组文本信息和所述至少一个另一组文本信息集合之间的关系,所述呈现模块具体用于:
在行标题中,以所述一组文本信息集合中的m1’个分组中的每一个为参考,邻近依次呈现所述至少一个另一组文本信息集合中的每一个集合中的与之对应的分组,表格的列标题至少呈现所述要计算的关系以及其他分析指标;
或者,在列标题中,以所述一组文本信息集合中的m1’个分组中的每一个为参考,邻近依次呈现所述至少一个另一组文本信息集合中的每一个集合中的与之对应的分组,表格的行标题至少呈现所述要计算的关系以及其他分析指标。
28.根据权利要求26或27所述的系统,所述呈现模块用于实现包括以下至少一种方式:
所述关系通过数值表示;
表格中表示关系的单元格附有超链接,使得点击该单元格,能够自动生成与所述关系对应的逻辑表达式并链接到展示该逻辑表达式的窗口/界面。
29.根据权利要求16-28之一所述的系统,其特征在于:还包括分集模块,设定模块,还用于设定分集参数;
分集模块,用于基于分集参数将所述一组文本信息集合和所述至少一个另一组文本信息集合分别分成j个文本信息子集对,j为正整数;
分析模块对于j个文本信息子集对中的全部或部分子集对,针对每一个子集对执行相应的操作。
30.根据权利要求29所述的系统,其特征在于:所述分集参数是时间度量,对于每个文本信息子集对,以空间方式和/或动态变化方式呈现每个文本信息子集对经过分析步骤所获得的关系。
31.一种计算机存储介质,其特征在于,所述计算机存储介质上存储有实现分析文本信息的程序,所述程序被处理器执行以实现如权利要求1-15任一项所述的分析文本信息的方法的步骤。
CN202010170348.0A 2020-01-20 2020-03-12 分析文本信息的方法、系统和计算机存储介质 Active CN111460784B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN2020100658365 2020-01-20
CN202010065836 2020-01-20

Publications (2)

Publication Number Publication Date
CN111460784A true CN111460784A (zh) 2020-07-28
CN111460784B CN111460784B (zh) 2023-09-26

Family

ID=71680739

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010170348.0A Active CN111460784B (zh) 2020-01-20 2020-03-12 分析文本信息的方法、系统和计算机存储介质

Country Status (1)

Country Link
CN (1) CN111460784B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040133433A1 (en) * 2001-08-01 2004-07-08 Young-Gyun Lee Method for analyzing and providing of inter-relations between patents from the patent database
WO2009075554A2 (en) * 2007-12-12 2009-06-18 Kwanggaeto Co., Ltd. Patent information providing method and system
CN101515347A (zh) * 2009-04-03 2009-08-26 许珂 专利技术宽度实时分析系统及方法
EP2178002A2 (en) * 2008-10-20 2010-04-21 Industrial Technology Research Institute System and method for technical document analysis, and patent analysis system
US20150134596A1 (en) * 2011-06-28 2015-05-14 Shih-Chun Lu Method for Automatically Generating Analytical Reports of Patent Bibliographic Data and System Thereof
CN106446071A (zh) * 2016-09-07 2017-02-22 知识产权出版社有限责任公司 信息处理装置及方法
CN110020034A (zh) * 2018-06-29 2019-07-16 程宇镳 一种信息引证分析方法和系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040133433A1 (en) * 2001-08-01 2004-07-08 Young-Gyun Lee Method for analyzing and providing of inter-relations between patents from the patent database
WO2009075554A2 (en) * 2007-12-12 2009-06-18 Kwanggaeto Co., Ltd. Patent information providing method and system
EP2178002A2 (en) * 2008-10-20 2010-04-21 Industrial Technology Research Institute System and method for technical document analysis, and patent analysis system
CN101515347A (zh) * 2009-04-03 2009-08-26 许珂 专利技术宽度实时分析系统及方法
US20150134596A1 (en) * 2011-06-28 2015-05-14 Shih-Chun Lu Method for Automatically Generating Analytical Reports of Patent Bibliographic Data and System Thereof
CN106446071A (zh) * 2016-09-07 2017-02-22 知识产权出版社有限责任公司 信息处理装置及方法
CN110020034A (zh) * 2018-06-29 2019-07-16 程宇镳 一种信息引证分析方法和系统

Also Published As

Publication number Publication date
CN111460784B (zh) 2023-09-26

Similar Documents

Publication Publication Date Title
CN106156372B (zh) 一种互联网网站的分类方法及装置
CN102521248A (zh) 一种网络用户分类方法及其装置
CN101211368B (zh) 一种对查询词分类的方法、装置及搜索引擎系统
Silva Metrics for evaluating performance in document analysis: application to tables
Zhu et al. Sraslr: A novel social relation aware service label recommendation model
Marini et al. Machine learning to identify ICL and BCG in simulated galaxy clusters
JP5324677B2 (ja) 類似文書検索支援装置及び類似文書検索支援プログラム
Walsh et al. I-optimal or G-optimal: Do we have to choose?
CN109740722A (zh) 一种基于Memetic算法的网络表示学习方法
CN111460784A (zh) 分析文本信息的方法、系统和计算机存储介质
Li et al. Research on multi factor stock selection model based on LightGBM and Bayesian Optimization
CN113065975B (zh) 网络舆情话题聚焦程度与演变关系计算方法、系统、终端
US20220091818A1 (en) Data feature processing method and data feature processing apparatus
CN111259117B (zh) 短文本批量匹配方法及装置
CN114239999A (zh) 基于交叉熵重要抽样的元件可靠性参数优化解析方法
CN113821542A (zh) 一种显著特征自动推荐系统及方法
CN112784040A (zh) 基于语料库的垂直行业文本分类方法
Huang et al. Social Network Link Prediction Algorithm Based on Node Similarity
Saritas Foresight in transition: A review & way forward
Lei et al. Mining top-k sequential patterns in transaction database graphs: A new challenging problem and a sampling-based approach
Farasat et al. BGP traffic volume forecasting using LSTM framework
Vysakh et al. Altmetrics linked scholarly information from dimensions. ai datasets for the top 100 LIS
CN116049700B (zh) 基于多模态的运检班组画像生成方法及装置
CN116244369B (zh) 一种基于大数据可视化的数据挖掘方法及系统
Tuah et al. Sentiment Analysis of Political Party News on the Online News Portal Detik. com Using LSTM and CNN

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant