CN111427880A - 数据处理的方法、装置、计算设备以及介质 - Google Patents
数据处理的方法、装置、计算设备以及介质 Download PDFInfo
- Publication number
- CN111427880A CN111427880A CN202010226551.5A CN202010226551A CN111427880A CN 111427880 A CN111427880 A CN 111427880A CN 202010226551 A CN202010226551 A CN 202010226551A CN 111427880 A CN111427880 A CN 111427880A
- Authority
- CN
- China
- Prior art keywords
- keywords
- target
- data
- determining
- keyword
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/242—Query formulation
- G06F16/243—Natural language query formulation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Quality & Reliability (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开提供了一种由电子设备执行的数据处理的方法,包括:获取多个原始数据,原始数据用于描述多个对象中的至少一个对象;获取多个原始数据中包含的多个关键词;确定多个关键词中的每个关键词表征的情感倾向和多个关键词彼此之间的关联关系;响应于针对多个对象中的目标对象的分析操作,在多个关键词中确定与目标对象对应的多个目标关键词;以及根据多个目标关键词、目标关键词表征的情感倾向和多个目标关键词彼此之间的关联关系,确定针对目标对象的分析结果。本公开还提供了一种数据处理的装置、一种计算设备以及一种计算机可读存储介质。
Description
技术领域
本公开涉及计算机技术领域,更具体地,涉及一种数据处理的方法、装置、计算设备以及介质。
背景技术
随着我国金融业的繁荣发展,金融产品(包括但不限于股票、网上银行、虚拟金融、虚拟货币、理财产品)层出不穷,以理财产品为例,现在市面上各大银行及理财子公司的产品总数约有1000余款。相应的,在网络中存在着大量与金融产品相关的数据。当需要对金融产品进行针对性分析时,所面对的数据量较大,因此分析难度较大。
相关技术采用知识图谱技术对金融产品数据进行关联分析,但是知识图谱技术仅限于对标准化数据进行识别。由于金融产品分布在不同的企业或集团(例如银行或承销企业),所以金融产品的信息互相隔绝且描述不尽相同。另外,与非金融产品相比,金融产品的信息标准化程度低。因此相关技术无法针对金融产品的信启、进行关联分析。
发明内容
本公开的一个方面提供了一种由电子设备执行的数据处理的方法,包括:获取多个原始数据,原始数据用于描述多个对象中的至少一个对象;获取多个原始数据中包含的多个关键词;确定多个关键词中的每个关键词表征的情感倾向和多个关键词彼此之间的关联关系;响应于针对多个对象中的目标对象的分析操作,在多个关键词中确定与目标对象对应的多个目标关键词;以及根据多个目标关键词、目标关键词表征的情感倾向和多个目标关键词彼此之间的关联关系,确定针对目标对象的分析结果。
可选地,上述获取多个原始数据,包括:获取多个用于介绍对象的文本数据;以及对获取的多个文本数据进行数据清洗,以得到多个原始数据。可选地,上述获取多个原始数据,包括:获取用于多个介绍对象的图像数据;以及对获取的多个图像数据进行文本识别,以得到多个原始数据。可选地,上述获取多个原始数据中包含的多个关键词,包括:针对多个原始数据中每个原始数据,对每个原始数据进行分词处理,得到多个分词;确定多个分词中每个分词与预设词库中存储的对应词汇之间的相似度;以及将多个分词中相似度大于相似度阈值的分词作为关键词。
可选地,上述确定多个关键词中的每个关键词表征的情感倾向,包括:确定每个关键词的词性和词频;以及将每个关键词、每个关键词的词性和词频输入预设模型,以确定每个关键词表征的情感倾向。
可选地,上述确定多个关键词彼此之间的关联关系,包括:根据预先设定的语法规则和/或语义规则,确定多个关键词之间的关联关系。可选地,上述在多个关键词中确定与目标对象对应的多个目标关键词,包括:获取目标对象的对象名称;以及从多个关键词中确定与对象名称关联的关键词,以作为目标关键词。
可选地,上述根据多个目标关键词、每个目标关键词表征的情感倾向和多个目标关键词彼此之间的关联关系,确定针对目标对象的分析结果,包括:根据多个目标关键词表征的情感倾向,确定与多个目标关键词对应的至少一个目标原始数据表征的情感倾向;以及根据至少一个目标原始数据表征的情感倾向,生成分析结果。
可选地,上述多个关键词包括表征对实体命名的关键词。
本公开的另一个方面提供了一种数据处理的装置,包括:原始数据获取模块,用于获取多个原始数据,原始数据用于描述多个对象中的至少一个对象;关键词获取模块,用于获取多个原始数据中包含的多个关键词;第一确定模块,用于确定多个关键词中的每个关键词表征的情感倾向和多个关键词彼此之间的关联关系;第二确定模块,用于响应于针对多个对象中的目标对象的分析操作,在多个关键词中确定与目标对象对应的多个目标关键词;以及第三确定模块,用于根据多个目标关键词、目标关键词表征的情感倾向和多个目标关键词彼此之间的关联关系,确定针对目标对象的分析结果。
本公开的另一个方面提供了一种计算设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如上所述的方法。
本公开的另一方面提供了一种计算机可读存储介质,存储有计算机可执行指令,所述指令在被执行时用于实现如上所述的方法。
本公开的另一方面提供了一种计算机程序,所述计算机程序包括计算机可执行指令,所述指令在被执行时用于实现如上所述的方法。
附图说明
为了更完整地理解本公开及其优势,现在将参考结合附图的以下描述,其中:
图1示意性示出了根据本公开的实施例的可以用于执行数据处理的方法的示例性电子设备;
图2示意性示出了根据本公开的实施例的由电子设备执行的数据处理的方法的流程图;
图3示意性示出了根据本公开的实施例的获取多个原始数据中包含的多个关键词的流程图;
图4示意性示出了根据本公开的实施例的确定针对目标对象的分析结果的流程图;
图5示意性示出了根据本公开的实施例的数据处理的装置的框图;以及
图6示意性示出了根据本公开实施例的适于实现上文描述的方法的计算机系统的方框图。
具体实施方式
以下,将参照附图来描述本公开的实施例。但是应该理解,这些描述只是示例性的,而并非要限制本公开的范围。在下面的详细描述中,为便于解释,阐述了许多具体的细节以提供对本公开实施例的全面理解。然而,明显地,一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本公开的概念。
在此使用的术语仅仅是为了描述具体实施例,而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在,但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。
在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义,除非另外定义。应注意,这里使用的术语应解释为具有与本说明书的上下文相一致的含义,而不应以理想化或过于刻板的方式来解释。
在使用类似于“A、B和C等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。在使用类似于“A、B或C等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有A、B或C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。
附图中示出了一些方框图和/或流程图。应理解,方框图和/或流程图中的一些方框或其组合可以由计算机程序指令来实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器,从而这些指令在由该处理器执行时可以创建用于实现这些方框图和/或流程图中所说明的功能/操作的装置。本公开的技术可以硬件和/或软件(包括固件、微代码等)的形式来实现。另外,本公开的技术可以采取存储有指令的计算机可读存储介质上的计算机程序产品的形式,该计算机程序产品可供指令执行系统使用或者结合指令执行系统使用。
本公开的实施例提供了一种数据处理的方法以及能够应用该方法的装置。该方法包括获取多个原始数据,原始数据用于描述多个对象中的至少一个对象;获取多个原始数据中包含的多个关键词;确定多个关键词中的每个关键词表征的情感倾向和多个关键词彼此之间的关联关系;响应于针对多个对象中的目标对象的分析操作,在多个关键词中确定与目标对象对应的多个目标关键词;以及根据多个目标关键词、目标关键词表征的情感倾向和多个目标关键词彼此之间的关联关系,确定针对目标对象的分析结果。
图1示意性示出了根据本公开的实施例的可以用于执行数据处理的方法的示例性电子设备。需要注意的是,图1所示仅为可以应用本公开实施例的场景的示例,以帮助本领域技术人员理解本公开的技术内容,但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。
如图1所示,示例性电子设备100包括系统构建模块101、数据处理模块102、数据分析模块103、数据统计模块104和输出展示模块105。
其中,系统构建模块101,可以用于获取互联网供应商提供的有关金融产品的实时数据,例如金融产品介绍数据、用户讨论数据及官方政策要闻数据,另外,还可以用于构建前端页面及配置数据库服务器;
数据处理模块102,可以用于对系统构建模块101获取的金融产品的实时数据进行提取关键词等操作,并对处理后的数据进行整理数据,以形成标准化数据;
数据分析模块103,可以用于基于数据处理模块102得到的标准化数据进行分析识别,并形成关键词之间的关联关系,例如“领域-实体-产品-政策”的关联关系;
数据统计模块104,可以用于根据数据分析模块103形成关键词之间的关联关系对产品市场表现/产品舆情进行量化计算;
输出展示模块105,可以用于对数据统计模块104的量化计算结果进行展示输出。
图2示意性示出了根据本公开的实施例的由电子设备执行的数据处理的方法的流程图。
如图2所示,该方法包括操作S210~S250。
在操作S210,获取多个原始数据。
原始数据用于描述多个对象中的至少一个对象,对象例如可以为金融产品。
根据本公开的实施例,可以获取多个用于介绍对象的文本数据,对获取的多个文本数据进行数据清洗,以得到多个原始数据。或者,也可以获取用于多个介绍对象的图像数据,对获取的多个图像数据进行文本识别,以得到多个原始数据。其中,数据清洗用于发现并纠正数据文件中可识别的错误,具体可以包括检查数据一致性,处理无效值和缺失值等操作。
例如,可以通过网络爬虫,从一个或多个目标网站上爬取包含金融产品的产品介绍、新闻、政策等信息的文本数据或图像数据。分别对于文本数据进行数据清洗,对于图像数据进行文本识别,从而得到多个原始数据。
部分金融产品的介绍页面甚至采取图片的形式,给不同金融产品之间的分析比较造成一定的困难。根据本公开的实施例,通过将图像数据进行文本识别,可以实现对图片形式的金融产品数据进行分析。
在操作S220,获取多个原始数据中包含的多个关键词。
根据本公开的实施例,多个关键词包括表征对实体命名的关键词,例如命名实体。命名实体指文本中具有特定意义或者指代性强的实体,通常包括人名、地名、组织机构名、日期时间、专有名词等。
图3示意性示出了根据本公开的实施例的获取多个原始数据中包含的多个关键词的流程图。如图3所示,操作S220例如可以包括操作S321~S323。
在操作S321,对每个原始数据进行分词处理,得到多个分词。
根据本公开的实施例,可以通过预设的词库对每个原始数据进行分词处理,以提取原始数据中的词汇。预设的词库例如可以为产品特征词库,包括专家定义词库、高频备选词库。其中,专家定义词库可以用于存储人为预设的与特定领域相关的特征词语,例如专家定义词库可以包括银行、工行、工小智、融e联、理财、久期、回撤、最大回撤、资管计划等与金融领域相关的词汇。高频备选词库可以用于存储在互联网中出现频率较高且与特定领域相关的特征词语,例如高频备选词库可以包括资管新规,风险新规、四大行等与金融领域相关的互联网热词。
在操作S322,确定多个分词中每个分词与预设词库中存储的对应词汇之间的相似度。
根据本公开的实施例,可以通过每个分词与预设词库中存储的对应词汇的词向量之间的空间距离确定每个分词与预设词库中存储的对应词汇之间的相似度。词向量之间的空间距离越小表示两词向量所对应的词汇相似度越高。基于此,操作S322可以包括确定每个分词的词向量,计算每个分词的词向量与词库中的词汇的词向量之间的空间距离。
在操作S323,将多个分词中相似度大于相似度阈值的分词作为关键词。
根据本公开的实施例,若某个分词的词向量与词库中的任意一个词汇的词向量之间的空间距离小于距离阈值,则表示该分词与该词汇相同或相似,将该分词作为一个关键词。
在操作S230,确定多个关键词中的每个关键词表征的情感倾向和多个关键词彼此之间的关联关系。
根据本公开的实施例,可以通过确定每个关键词的词性和词频,然后将每个关键词、每个关键词的词性和词频输入预设模型,来得到每个关键词表征的情感倾向。预设模型例如可以为预先训练得到的分类模型,其输入参数为词汇、词汇的词性、词汇在原始数据中的出现频率,输出为该词汇的情感倾向值。根据本公开的实施例,情感倾向值为正数时表示情感倾向为正面,情感倾向值为负数时表示情感倾向为负面,情感倾向值为0时表示情感倾向为中性。情感倾向值的绝对值越大,则表示情感越强烈。
根据本公开的实施例,可以根据预先收集的新闻等数据以及与这些数据对应的客户反馈(优、良、合格、不合格等)等信息,对数据中的新闻源、主题词等内容进行人工智能训练,以得到分类模型。
根据本公开的实施例,可以根据预先设定的语法规则和/或语义规则,确定多个关键词之间的关联关系。例如,对于“人民银行”和“银行”这两个关键词,可以根据语法规则,识别这两个关键词所在的句子“人民银行管理四大银行”中的各成分,以确定句中的主语成分为“人民银行”,谓语成分为“管理”,宾语成分为“四大银行”。从而进一步得到“人民银行”与“四大银行”之间的关系为“管理”关系。或者,根据语义规则,识别“人民银行管理四大银行”的语义,从而确定“人民银行”与“四大银行”之间的关系为“管理”关系。
根据本公开另一些实施例,还可以通过其他方法确定多个关键词之间的关联关系,例如基于统计的机器学习方法、基于特征向量或核函数的有监督学习方法、半监督和无监督的究面向开放域的信息抽取方法等。
在操作S240,响应于针对多个对象中的目标对象的分析操作,在多个关键词中确定与目标对象对应的多个目标关键词。
根据本公开的实施例,操作S240例如可以包括,获取目标对象的对象名称,从多个关键词中确定与对象名称关联的关键词,以作为目标关键词。
以对象为金融产品为例,目标对象为e灵通产品,其产品名称为“e灵通”,可以所有关键词中确定与“e灵通”具有关联关系的关键词,例如推出“e灵通”的机构名、与“e灵通”本质相同的其他产品的产品名等,作为目标关键词。
在操作S250,根据多个目标关键词、目标关键词表征的情感倾向和多个目标关键词彼此之间的关联关系,确定针对目标对象的分析结果。
图4示意性示出了根据本公开的实施例的确定针对目标对象的分析结果的流程图。如图4所示,操作S250例如可以包括操作S451~S452。
在操作S451,根据多个目标关键词表征的情感倾向,确定与多个目标关键词对应的至少一个目标原始数据表征的情感倾向。
根据本公开的实施例,可以根据目标关键词的情感倾向和词频,确定目标关键词所对应的目标原始数据表征的情感倾向。更具体地,可以根据每个目标关键词的词频,确定每个目标关键词的权重,词频越大则权重越大。然后根据每个目标关键词的权重,将目标原始数据所包含的目标关键词的情感倾向值加权求和,得到目标关键词对应的目标原始数据的情感倾向值,从而确定目标原始数据表征的情感倾向。
在操作S452,根据至少一个目标原始数据表征的情感倾向,生成分析结果。
根据本公开的实施例,可以将至少一个目标原始数据表征的情感倾向以时间的顺序,形成一个数据序列,该数据序列即为分析结果。用户可以通过分析结果了解目标对象的发展趋势或者其在网络中的舆情。
由于金融产品分布在不同的企业或集团(例如银行或承销企业),所以各金融产品的信息之间互相隔绝且描述不尽相同。以“工行积存金”这一金融产品为例,金融产品的介绍信息采取的是纯文字形式,产品的主要特征包含在文字之中,并不明显。此外“工行积存金”这一金融产品的业务本质其实与“建行金”这一金融产品的业务本质相同,但由于产品的名称不同,因此增加了金融产品之间横向分析对比的困难。
根据本公开的实施例,通过确定用于介绍不同金融产品的原始数据中包含的关键词和关键词之间的关联关系,可以确定金融产品之间的关联关系,从而识别出本质相同的不同金融产品。当用户以目标金融产品进行分析时,根据与目标金融产品关联的目标关键词和目标关键词之间的关联关系,确定分析结果。该分析结果不仅包括目标金融产品的信息,还包括与目标金融产品相关的其他金融产品的信息,例如本质相同的不同金融产品的信息,从而实现了对不同金融产品进行关联分析。
根据本公开的另一实施例,可以对与同类对象相关的原始数据中的词汇进行分析,提取出其中出现率较高的名词,将这些名词收录到预设词库中,以扩充预设词库,从而提高对文本数据的理解能力。
例如,多篇关于银行理财领域的文章中,“银行”、“理财”和“风险新规”三个名词的出现频率较高,其中“风险新规”没有被预设词库收录,则将“风险新规”存储至高频备选词库中。在后续对其他文章进行识别的过程中,可以通过高频备选词库实现对“风险新规”的识别,从而提高了对文章的理解能力。
根据本公开的另一实施例,可以预设知识库,知识库可以用于存储命名实体(简称实体)和命名实体之间的关联关系。可以将操作S230得到的关键词之间的关联关系作为命名实体之间的关联关系添加到知识库中。
更具体地,若关键词之间的关联关系不是结构化数据,则分别将每一组关键词之间的关联关系作为实体指称项,计算实体指称项与知识库中的每一组候选命名实体的相似度,若相似度高于实体相似度阈值,则将实体指称项链接到对应的命名实体,以将该组关键词的关联关系添加到知识库。更具体地,链接包括从文本中通过实体抽取得到实体指称项;进行实体消歧以及共指消解,以确定知识库中与实体指称项具有相同含义的正确的命名实体。其中,实体消歧即判断知识库中的与实体指称项同名的实体与实体指称项是否代表不同的含义,共指消解即判断知识库中是否存在其他命名实体与实体指称项表示相同的含义。在确认知识库中对应的正确的实体之后,将该实体指称项链接到知识库中对应实体。
若关键词之间的关联关系是结构化数据,则可以采用RDB2RDF方法将关键词之间的关联关系合并至知识库中。其中,RDB2RDF是指将关系型数据库(Relational DataBase,RDB)的数据结构和数据转换为资源描述框架(Resource Description Framework,RDF)的“三元组”模型和RDF数据的过程。
另外,对于新增的实体关系,还需要对实体关系本身的正确性、整体贴合度、可信度等进行评估后,评估通过后才可更新至知识库。
下面结合具体实施例对图2~4所示的方法做进一步说明。
根据本公开的实施例,首先进行系统构建并获取原始数据。系统构建是指运用成熟框架搭建linux服务器集群,采用分布式爬虫技术对新闻源进行精准采集,并综合运用验证码识别、代理IP、线程优化等方法提高信息的采集效率。更具体地,系统构建包括以下步骤1~3。
步骤1:运用LNMP框架在Linux服务器搭建前端网页,展示已有信息与趋势信息,并根据预先收集的新闻等文本数据以及与文本数据对应的客户反馈(优、良、合格、不合格)等信息,对文本数据中的新闻源、主题词等内容进行人工智能训练,以得到分类模型。
步骤2:利用关键词对网站中的数据进行分析抓取。具体地,可采用request、json、selenmium等方法对数据进行解析,收集数据的链接、源头、标题、内容、图片,放入请求池,等待后续下载。
步骤3:调用验证码图像识别、代理IP池、模拟操作等进行反爬虫处理。
步骤4:对接Mysql和MongoDB数据库,以将分类模型相关信息和下载得到的具体内容分别存入Mysql和MongoDB数据库。
在完成系统构建并获取原始数据后,检查产品特征词库。词库分为两部分专家定义词库C1和高频备选词库C2。每个特征词库包含多个特征词语。特别地,对于每个特征词库中的任一特征词语ci,可以定义该特征词语ci的文本描述di以及该特征词语ci的词性ti(代词、名词、动词、定语、补语等)。例如,对于特征词语“人民银行”,其文本描述为“银行”词性为“名词”。
本实施例中,获取的原始数据为包含N1、N2和N3三个句子的文本数据N:
N:根据人民银行最新通告《商业银行理财产品风险管理指引征求意见稿》即“风险新规”指出,所有商业银行理财产品起购金额与风险等级需进行严格匹配。【N1】根据笔者研究,目前四大行在发产品均受到影响需要整改。【N2】更多信息请关注abcd公众号,后台回复xxx可获取最新消息,一键关注不走丢,带您了解金融圈基金、理财、外汇、贵金属信息最新动态,更有专家实时点评。【N3】
在获取原始数据N后,根据特征词库,分别对N1、N2和N3进行分词,匹配具有特定文本描述d的词汇,并采取下文就近原则找到与该词汇对应的符合词性t的下文,以在保证语句逻辑连贯的情况下去除多余词汇,得到以下分词结果:
N1:根据,人民银行[名词,银行],最新[形容词,desc(描述)],风险新规[专有名词,理财],指出,所有,商业|银行,理财产品,起购金额,与,风险等级[专有名词,理财],需进行,严格,匹配
N2:根据[前接成分],研究[动词],目前,四大行[专有名词,银行],在发产品,均,受到,影响[动词],需要,整改[动词]
N3:更多,信息,请,关注,abcd,公众号,后台,回复,xxx,可,获取,最新,消息,一,键,关注,不,走丢,
带,您,了解,金融圈,基金,理财,外汇,贵金属,信息,最新,动态,更,有,专家,实时,点评
接下来,将上述分词结果中的所有词汇依据行文顺序进行格式化,得到以下标准化数据:
根据[前接成分],
人民银行[名词],
最新[形容词,desc],
风险新规[专有名词,理财,C2],
指出[动词],
所有[形容词],
商业银行[名词],
理财产品[专有名词,理财],
起购金额[[专有名词,理财,C1],
与[连词],
风险等级[专有名词,理财,C1],
需[动语素],
进行[动词],
严格[副行词],
匹配[动词]
根据[动词],reason],
研究[动词],
目前[时间词]
…
由于金融产品分布在不同的企业集团(银行或承销企业),所以金融产品的信启、互相隔绝且描述不尽相同。因此,与非金融产品相比,金融产品的信息标准化程度低。根据本公开的实施例,通过上述分词、格式化等操作,得到标准化数据,从而方便后续对数据进行分析。
基于预先训练的决策树模型,分别将每个词汇、词汇的词性、词汇在文本中出现的频率、词汇所在的句子输入决策树模型,以计算词汇与文本数据的关联程度。词汇与文本数据的关联程度可以表征该词汇对于文本数据是否重要,关联程度越大,则越重要。从所有词汇中筛选出关联程度大于关联阈值的词汇,去除无关联的词汇,从而简化文本数据的内容。将筛选后的词汇作为关键词。
接下来,分别将每个关键词、关键词的词性和词频输入用于确定词汇情感倾向的分类模型,以确定关键词的情感倾向。
然后,基于知识库中已有的实体从文本数据中自动识别出实体,通过相关语料中提取出以下实体之间的关联关系:
人民银行---[创建]---风险新规---[更新]---四大行---[包含]---中国工商银行---[包含]---理财产品---[包含]---行内理财业务/发布理财产品计划/销售个人理财产品/审核个人理财产品/审核风险等级---[包含]---风险等级---[结果]---整改---[结果]---负面-10
其中,新增的实体关系有:
人民银行---创建--->风险新规
风险新规---更新--->四大行
通过关系将实体联系起来形成网状的知识结构,得到如下结果:
来源:xxx公众号
标题:“xxx带你解读《商业银行理财产品风险管理指引征求意见稿》”
时间:2020年2月31日
正文:“...”
实体关联:
人民银行---[创建]---风险新规---[更新]---四大行---[包含]---中国工商银行---[包含]---理财产品---[包含]---行内理财业务/发布理财产品计划/销售个人理财产品/审核个人理财产品/审核风险等级---[包含]---风险等级---[结果]---整改---[结果]---负面-10
新增实体关系:
人民银行---创建--->风险新规
风险新规---更新--->四大行
对于知识库中已有的实体关系,进行实体消歧和共指消解,即判断知识库中的同名实体与识别得到的实体是否代表不同的含义,并且判断知识库中是否存在与之表示相同的含义的其他实体,以确认知识库中对应的正确实体。然后将该实体指称项链接到知识库中对应实体。
对于新增的实体关系,进行并行相似度计算、上下位关系推算、关系推理扩展以及可信度优化等处理,然后将处理后确定的实体关系纳入知识库中,为下次迭代做参考,从而实现知识库的增量更新。其中,关系推理扩展包括通过局部新增关系,推理与全局其余实体/领域信息等关联关系。可信度优化包括对实体关系的可信度进行量化,然后舍弃置信度较低的实体关系,以此来保障知识库的质量。
将专家词库、高频备选词库等词库中产品/领域等实体信息与已有知识库实体信息进行同步,以便于后续识别。
另外,可以运用已形成的金融资产信息,如业务领域架构模型/历史金融交易情况/专家归纳业务实体等,对知识库进行更新。这些金融资产信息可以作为知识库核心参考内容。
根据每个文本数据的分词结果汇总产品热度词、新鲜事、相关产品、相关政策、产品舆情情绪数据、政策解读情绪数据等分析要素,根据文本数据在网络中的发布时间生成时间序列模型,以针对热度/情感/价格等因素进行分析。时间序列模型可以展现在网页前端,并且支持交叉引用搜索。
根据本公开的实施例,用户可以通过输入与特定文章或政策相关的关键词,来进行文章或政策维度的搜索。示例性地,以文章标题“标题1”为关键词进行搜索得到的输出结果如下:
文章:标题1
时间:xxx
涉及实体:人民银行、四大行、理财产品、风险等级等全量有关知识实体
影响:负面-10
用户也可以通过输入与特定产品或业务相关的关键词,来进行产品或业务维度的搜索。示例性地,以产品名称“e灵通”为关键词进行搜索得到的输出结果如下:
产品:e灵通
分类:理财产品
涉及实体:xxx
价格走势:xxx
同业产品:xxx
同业及政策行情:
a/2020年2月31日,人民银行创建“xxxx”,情绪:负面-10
b/2020年4月1日,工行银行推出“xxxx”政策,情绪:正面100
c/2020年4月2日,招商银行推出“xxxxx”,情绪:中性
图5示意性示出了根据本公开的实施例的数据处理的装置的框图。
如图5所示,数据处理的装置500包括原始数据获取模块510、关键词获取模块520、第一确定模块530、第二确定模块540和第三确定模块550。该商品推荐的装置500可以执行上面参考图2~图4描述的方法。
具体地,原始数据获取模块510,用于获取多个原始数据,原始数据用于描述多个对象中的至少一个对象。
关键词获取模块520,用于获取多个原始数据中包含的多个关键词。
第一确定模块530,用于确定多个关键词中的每个关键词表征的情感倾向和多个关键词彼此之间的关联关系。
第二确定模块540,用于响应于针对多个对象中的目标对象的分析操作,在多个关键词中确定与目标对象对应的多个目标关键词。
第三确定模块550,用于根据多个目标关键词、目标关键词表征的情感倾向和多个目标关键词彼此之间的关联关系,确定针对目标对象的分析结果。
根据本公开的实施例,通过确定用于介绍不同金融产品的原始数据中包含的关键词和关键词之间的关联关系,可以确定金融产品之间的关联关系,从而识别出本质相同的不同金融产品。当用户以目标金融产品进行分析时,根据与目标金融产品关联的目标关键词和目标关键词之间的关联关系,确定分析结果。该分析结果不仅包括目标金融产品的信息,还包括与目标金融产品相关的其他金融产品的信息,例如本质相同的不同金融产品的信息,从而实现了对不同金融产品进行关联分析。
根据本公开的实施例的模块、子模块、单元、子单元中的任意多个、或其中任意多个的至少部分功能可以在一个模块中实现。根据本公开实施例的模块、子模块、单元、子单元中的任意一个或多个可以被拆分成多个模块来实现。根据本公开实施例的模块、子模块、单元、子单元中的任意一个或多个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC),或可以通过对电路进行集成或封装的任何其他的合理方式的硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者,根据本公开实施例的模块、子模块、单元、子单元中的一个或多个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。
例如,原始数据获取模块510、关键词获取模块520、第一确定模块530、第二确定模块540和第三确定模块550中的任意多个可以合并在一个模块中实现,或者其中的任意一个模块可以被拆分成多个模块。或者,这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合,并在一个模块中实现。根据本公开的实施例,原始数据获取模块510、关键词获取模块520、第一确定模块530、第二确定模块540和第三确定模块550中的至少一个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC),或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者,原始数据获取模块510、关键词获取模块520、第一确定模块530、第二确定模块540和第三确定模块550中的至少一个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。
图6示意性示出了根据本公开实施例的适于实现上文描述的方法的计算机系统的方框图。图6示出的计算机系统仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图6所示,计算机系统600包括处理器610以及计算机可读存储介质620。该计算机系统600可以执行根据本公开实施例的方法。
具体地,处理器610例如可以包括通用微处理器、指令集处理器和/或相关芯片组和/或专用微处理器(例如,专用集成电路(ASIC)),等等。处理器610还可以包括用于缓存用途的板载存储器。处理器610可以是用于执行根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。
计算机可读存储介质620,例如可以是非易失性的计算机可读存储介质,具体示例包括但不限于:磁存储装置,如磁带或硬盘(HDD);光存储装置,如光盘(CD-ROM);存储器,如随机存取存储器(RAM)或闪存;等等。
计算机可读存储介质620可以包括计算机程序621,该计算机程序721可以包括代码/计算机可执行指令,其在由处理器610执行时使得处理器610执行根据本公开实施例的方法或其任何变形。
计算机程序621可被配置为具有例如包括计算机程序模块的计算机程序代码。例如,在示例实施例中,计算机程序621中的代码可以包括一个或多个程序模块,例如包括621A、模块621B、……。应当注意,模块的划分方式和个数并不是固定的,本领域技术人员可以根据实际情况使用合适的程序模块或程序模块组合,当这些程序模块组合被处理器610执行时,使得处理器610可以执行根据本公开实施例的方法或其任何变形。
根据本发明的实施例,原始数据获取模块510、关键词获取模块520、第一确定模块530、第二确定模块540和第三确定模块550中的至少一个可以实现为参考图6描述的计算机程序模块,其在被处理器610执行时,可以实现上面描述的相应操作。
本公开还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的;也可以是单独存在,而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被执行时,实现根据本公开实施例的方法。
根据本公开的实施例,计算机可读存储介质可以是非易失性的计算机可读存储介质,例如可以包括但不限于:便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
本领域技术人员可以理解,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合,即使这样的组合或结合没有明确记载于本公开中。特别地,在不脱离本公开精神和教导的情况下,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本公开的范围。
尽管已经参照本公开的特定示例性实施例示出并描述了本公开,但是本领域技术人员应该理解,在不背离所附权利要求及其等同物限定的本公开的精神和范围的情况下,可以对本公开进行形式和细节上的多种改变。因此,本公开的范围不应该限于上述实施例,而是应该不仅由所附权利要求来进行确定,还由所附权利要求的等同物来进行限定。
Claims (12)
1.一种由电子设备执行的数据处理的方法,包括:
获取多个原始数据,所述原始数据用于描述多个对象中的至少一个对象;
获取所述多个原始数据中包含的多个关键词;
确定所述多个关键词中的每个关键词表征的情感倾向和所述多个关键词彼此之间的关联关系;
响应于针对所述多个对象中的目标对象的分析操作,在所述多个关键词中确定与所述目标对象对应的多个目标关键词;以及
根据所述多个目标关键词、所述目标关键词表征的情感倾向和所述多个目标关键词彼此之间的关联关系,确定针对所述目标对象的分析结果。
2.根据权利要求1所述的方法,其中,所述获取多个原始数据,包括:
获取多个用于介绍所述对象的文本数据;以及
对获取的多个文本数据进行数据清洗,以得到所述多个原始数据。
3.根据权利要求1所述的方法,其中,所述获取多个原始数据,包括:
获取用于多个介绍所述对象的图像数据;以及
对获取的多个图像数据进行文本识别,以得到所述多个原始数据。
4.根据权利要求1所述的方法,其中,所述获取所述多个原始数据中包含的多个关键词,包括:针对所述多个原始数据中每个原始数据,
对所述每个原始数据进行分词处理,得到多个分词;
确定所述多个分词中每个分词与预设词库中存储的对应词汇之间的相似度;以及
将所述多个分词中相似度大于相似度阈值的分词作为所述关键词。
5.根据权利要求1所述的方法,其中,所述确定所述多个关键词中的每个关键词表征的情感倾向,包括:
确定所述每个关键词的词性和词频;以及
将所述每个关键词、所述每个关键词的词性和词频输入预设模型,以确定所述每个关键词表征的情感倾向。
6.根据权利要求1所述的方法,其中,所述确定所述多个关键词彼此之间的关联关系,包括:
根据预先设定的语法规则和/或语义规则,确定所述多个关键词之间的关联关系。
7.根据权利要求1所述的方法,其中,所述在所述多个关键词中确定与所述目标对象对应的多个目标关键词,包括:
获取所述目标对象的对象名称;以及
从所述多个关键词中确定与所述对象名称关联的关键词,以作为所述目标关键词。
8.根据权利要求1所述的方法,其中,所述根据所述多个目标关键词、所述每个目标关键词表征的情感倾向和所述多个目标关键词彼此之间的关联关系,确定针对所述目标对象的分析结果,包括:
根据所述多个目标关键词表征的情感倾向,确定与所述多个目标关键词对应的至少一个目标原始数据表征的情感倾向;以及
根据所述至少一个目标原始数据表征的情感倾向,生成分析结果。
9.根据权利要求1所述的方法,其中,所述多个关键词包括表征对实体命名的关键词。
10.一种数据处理的装置,包括:
原始数据获取模块,用于获取多个原始数据,所述原始数据用于描述多个对象中的至少一个对象;
关键词获取模块,用于获取所述多个原始数据中包含的多个关键词;
第一确定模块,用于确定所述多个关键词中的每个关键词表征的情感倾向和所述多个关键词彼此之间的关联关系;
第二确定模块,用于响应于针对所述多个对象中的目标对象的分析操作,在所述多个关键词中确定与所述目标对象对应的多个目标关键词;以及
第三确定模块,用于根据所述多个目标关键词、所述目标关键词表征的情感倾向和所述多个目标关键词彼此之间的关联关系,确定针对所述目标对象的分析结果。
11.一种电子设备,包括:
一个或多个处理器;
存储器,用于存储一个或多个计算机程序,
其中,当一个或多个计算机程序被一个或多个处理器执行时,使得一个或多个处理器实现权利要求1至9中任一项的方法。
12.一种计算机可读存储介质,其上存储有可执行指令,该指令被处理器执行时使处理器实现权利要求1至9中任一项的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010226551.5A CN111427880B (zh) | 2020-03-26 | 2020-03-26 | 数据处理的方法、装置、计算设备以及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010226551.5A CN111427880B (zh) | 2020-03-26 | 2020-03-26 | 数据处理的方法、装置、计算设备以及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111427880A true CN111427880A (zh) | 2020-07-17 |
CN111427880B CN111427880B (zh) | 2023-09-05 |
Family
ID=71551620
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010226551.5A Active CN111427880B (zh) | 2020-03-26 | 2020-03-26 | 数据处理的方法、装置、计算设备以及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111427880B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112183090A (zh) * | 2020-10-09 | 2021-01-05 | 浪潮云信息技术股份公司 | 一种基于词网计算实体关联性的方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105824884A (zh) * | 2016-03-10 | 2016-08-03 | 海信集团有限公司 | 一种用户上网信息处理方法及装置 |
CN105893444A (zh) * | 2015-12-15 | 2016-08-24 | 乐视网信息技术(北京)股份有限公司 | 情感分类方法及装置 |
CN106339368A (zh) * | 2016-08-24 | 2017-01-18 | 乐视控股(北京)有限公司 | 文本情感倾向的获取方法及装置 |
CN109684481A (zh) * | 2019-01-04 | 2019-04-26 | 深圳壹账通智能科技有限公司 | 舆情分析方法、装置、计算机设备和存储介质 |
-
2020
- 2020-03-26 CN CN202010226551.5A patent/CN111427880B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105893444A (zh) * | 2015-12-15 | 2016-08-24 | 乐视网信息技术(北京)股份有限公司 | 情感分类方法及装置 |
CN105824884A (zh) * | 2016-03-10 | 2016-08-03 | 海信集团有限公司 | 一种用户上网信息处理方法及装置 |
CN106339368A (zh) * | 2016-08-24 | 2017-01-18 | 乐视控股(北京)有限公司 | 文本情感倾向的获取方法及装置 |
CN109684481A (zh) * | 2019-01-04 | 2019-04-26 | 深圳壹账通智能科技有限公司 | 舆情分析方法、装置、计算机设备和存储介质 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112183090A (zh) * | 2020-10-09 | 2021-01-05 | 浪潮云信息技术股份公司 | 一种基于词网计算实体关联性的方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111427880B (zh) | 2023-09-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11748416B2 (en) | Machine-learning system for servicing queries for digital content | |
US9911082B2 (en) | Question classification and feature mapping in a deep question answering system | |
US9141662B2 (en) | Intelligent evidence classification and notification in a deep question answering system | |
US9158773B2 (en) | Partial and parallel pipeline processing in a deep question answering system | |
US20150019571A1 (en) | Method for population of object property assertions | |
Antonio et al. | Hotel online reviews: creating a multi-source aggregated index | |
Arendarenko et al. | Ontology-based information and event extraction for business intelligence | |
US9632998B2 (en) | Claim polarity identification | |
Schraagen et al. | Extraction of semantic relations in noisy user-generated law enforcement data | |
Jacobs et al. | Extracting fine-grained economic events from business news | |
Baek et al. | Automated identification of active players for international construction market entry using natural language processing | |
Solomon et al. | Crime linkage based on textual hebrew police reports utilizing behavioral patterns | |
CN111427880B (zh) | 数据处理的方法、装置、计算设备以及介质 | |
CN117252186A (zh) | 基于xai的信息处理方法、装置、设备及存储介质 | |
Hristova | Topic modeling of chat data: A case study in the banking domain | |
Qiu et al. | Towards theme detection in personal finance questions | |
US11880394B2 (en) | System and method for machine learning architecture for interdependence detection | |
Castano et al. | Enforcing legal information extraction through context-aware techniques: The ASKE approach | |
Jishtu et al. | Prediction of the stock market based on machine learning and sentiment analysis | |
Pataci et al. | Stock price volatility prediction: A case study with AutoML | |
Lai et al. | On the patent claim eligibility prediction using text mining techniques | |
Li | Feature and variability extraction from natural language software requirements specifications | |
CN113849618A (zh) | 基于知识图谱的策略确定方法、装置、电子设备及介质 | |
Tao et al. | Mining Pain Points from Hotel Online Comments Based on Sentiment Analysis | |
Lai et al. | An unsupervised approach to discover media frames |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |