CN113065329A - 数据的处理方法和装置 - Google Patents

数据的处理方法和装置 Download PDF

Info

Publication number
CN113065329A
CN113065329A CN202010002274.XA CN202010002274A CN113065329A CN 113065329 A CN113065329 A CN 113065329A CN 202010002274 A CN202010002274 A CN 202010002274A CN 113065329 A CN113065329 A CN 113065329A
Authority
CN
China
Prior art keywords
event
sample
event information
vector
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010002274.XA
Other languages
English (en)
Inventor
郑穗欣
徐欣力
潘子琳
林昊
龙智勇
王必奇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Yuexiu Finance Technology Co ltd
Original Assignee
Guangzhou Yuexiu Finance Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Yuexiu Finance Technology Co ltd filed Critical Guangzhou Yuexiu Finance Technology Co ltd
Priority to CN202010002274.XA priority Critical patent/CN113065329A/zh
Publication of CN113065329A publication Critical patent/CN113065329A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Engineering & Computer Science (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Game Theory and Decision Science (AREA)
  • Data Mining & Analysis (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种数据的处理方法和装置。其中,该方法包括:获取事件信息,其中,所述事件信息包括:起因事件信息和结果事件信息;根据所述事件信息确定与所述事件信息对应的事件向量,其中,所述事件向量中包括:起因事件向量和结果事件向量;根据所述事件向量,基于事件概率预测模型,确定所述结果事件信息所表示的结果事件对应的事件趋势,其中,所述概率预测模型通过样本数据训练得到,所述样本数据包括:样本事件向量和所述样本事件向量对应的事件趋势。本发明解决了目前金融分析的算法较为复杂的技术问题。

Description

数据的处理方法和装置
技术领域
本发明涉及数据处理领域,具体而言,涉及一种数据的处理方法和装置。
背景技术
根据投资者的需求,投资可分为投顾和投研。传统的投研流程可简化成四个步骤,1、搜索:通过百度/谷歌、专业书籍、公告等寻找行业、公司、产品的基本信息。2、数据/知识提取:通过万得、彭博等金融终端或者直接阅读公告、新闻获得数据/知识。3、分析研究:通过Excel等工具和逻辑推演完成分析研究。4、观点呈现:将分析研究的结果以PPT、word等形式呈现。
由此可见,目前在进行投研时,在收集知识数据后,还需要人为的对数据进行复杂的推理验算,才能得到最终的分析结果,因此使得目前金融分析的算法较为复杂。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种数据的处理方法和装置,以至少解决目前金融分析的算法较为复杂的技术问题。
根据本发明实施例的一个方面,提供了一种数据的处理方法,包括:获取事件信息,其中,事件信息包括:起因事件信息和结果事件信息;根据事件信息确定与事件信息对应的事件向量,其中,事件向量中包括:起因事件向量和结果事件向量;根据事件向量,基于事件概率预测模型,确定结果事件信息所表示的结果事件对应的事件趋势,其中,事件概率预测模型通过样本数据训练得到,样本数据包括:样本事件向量和样本事件向量对应的事件趋势。
进一步地,获取事件信息中,用于表示起因事件信息的第一词语和用于表示结果事件信息的第二词语;基于第一词语和第二词语构成事件词语对;对事件词语对进行向量化处理,得到事件向量。
进一步地,获取事件概率预测模型,包括:获取样本数据;基于样本数据对初始模型进行训练,得到事件概率预测模型。
进一步地,获取样本文本;从样本文本中抽取具有指定关系的目标句式,其中,指定关系包括:因果关系和/或顺承关系,目标句式包括:用于表示起因事件信息的第三词语、用于表示结果事件信息的第四词语和结果事件信息对应的事件趋势;将第三词语和第四词语构成样本词语对,并根据结果事件的事件趋势确定样本词语对所对应的取值;对样本词语对进行向量化处理,得到样本事件向量;基于样本事件向量和样本词语对所对应的取值,构成样本数据。
进一步地,获取样本数据的步骤还包括:获取每两个目标句式之间的相似度;将相似度高于预设值的两个目标句式合并为一个句式。
进一步地,将两个目标句式进行分析,得到分词结果,其中,分词结果中包括多个用于构成目标句式的词语;确定每个词语在两个目标词语中出现的次数;根据次数确定两个目标句式对应的词频向量;确定两个目标句式对应的词频向量的相似度为两个目标句式之间的相似度。
进一步地,在对样本词语对进行向量化处理,得到样本事件向量之前,方法还包括:根据样本词语对生成事理图谱;基于样本数据对初始模型进行训练,得到事件概率预测模型,包括:基于样本数据对初始的图神经网络进行训练,得到事件概率预测模型。
根据本发明实施例的一个方面,提供了一种数据的处理装置,包括:获取模块,用于获取事件信息,其中,事件信息包括:起因事件信息和结果事件信息;第一确定模块,用于根据事件信息确定与事件信息对应的事件向量,其中,事件向量中包括:起因事件向量和结果事件向量;第二确定模块,用于根据事件向量,基于事件概率预测模型,确定结果事件信息所表示的结果事件对应的事件趋势,其中,事件概率预测模型通过样本数据训练得到,样本数据包括:样本事件向量和样本事件向量对应的事件趋势。
根据本发明实施例的一个方面,提供了一种存储介质,存储介质包括存储的程序,其中,在程序运行时控制存储介质所在设备执行上述的数据的处理方法。
根据本发明实施例的一个方面,提供了一种处理器,处理器用于运行程序,其中,程序运行时执行上述的数据的处理方法。
在本发明实施例中,获取事件信息,其中,事件信息包括:起因事件信息和结果事件信息;根据事件信息确定与事件信息对应的事件向量,其中,事件向量中包括:起因事件向量和结果事件向量;根据事件向量,基于事件概率预测模型,确定结果事件对应的趋势,其中,概率预测模型通过样本数据训练得到,样本数据包括:样本事件向量和样本事件向量对应的事件趋势。上述方案不需要用户在某个领域具有专业的知识,也不需要复杂的参数配置和算法,就可以得到较准确的事件分析结果,从而解决了目前金融分析的算法较为复杂的技术问题,进而节省了运算资源。尤其对于金融领域,用户不再需要有专业的金融知识,也不需要设置复杂的参数和配置算法,就可以得到类似于金融分析师分析的结果,从而让更多的人能够以较低的门槛获得专业的分析结果。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的数据的处理方法的流程图;
图2是根据本发明实施例的一种生成事件概率预测模型的示意图;以及
图3是根据本发明实施例的数据的处理装置的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例1
根据本发明实施例,提供了一种数据的处理方法的实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1是根据本发明实施例的数据的处理方法的流程图,如图1所示,该方法包括如下步骤:
步骤S102,获取事件信息,其中,所述事件信息包括:起因事件信息和结果事件信息。
具体的,上述事件信息可以是从财经新闻中获取的具有指定关系的文本。该财经新闻可以是文本的新闻,也可以为对语音新闻进行语音识别得到的文本信息。上述起因事件信息可以是在财经新闻中爬取的用于表示起因事件的词语,结果事件信息可以是用于在财经新闻中爬取的表示结果事件的词语,也可以用户设置的其所需求的结果事件的词语。
在一种可选的实施例中,可以设置一定的周期爬取指定的财经新闻,从财经新闻中获取表示事件信息的文本。例如,可以在个工作日的12:00爬取当日的财经新闻,以得到当日指定的结果事件的趋势。
举一种更具体的实施例,用户可以设置结果事件信息为“XXX股市走势”,通过爬取财经新闻,得到了起因事件信息“XXX董事长与XX演员再婚”,从而构成了事件信息。
步骤S104,根据事件信息确定与事件信息对应的事件向量,其中,事件向量中包括:起因事件向量和结果事件向量。
具体的,上述事件向量可以是包括起因事件信息对应的向量和结果事件信息对应的向量构成的向量对。该事件向量用于作为下述的事件概率预测模型的输入,从而得到事件向量对应的事件趋势。
在一种可选的实施例中,可以将事件信息中的起因事件信息和结果事件信息构成词语对,再对词语对进行向量化处理,即可得到事件向量。
步骤S106,根据事件向量,基于事件概率预测模型,确定结果事件信息所表示的结果事件对应的事件趋势,其中,概率预测模型通过样本数据训练得到,样本数据包括:样本事件向量和样本事件向量对应的事件趋势。
具体的,上述事件概率预测模型可以是神经网络模型,该神经网络模型通过对样本数据进行训练得到。
上述事件趋势可以是通过数据表示的趋势信息,例如:升高(1)、降低(-1)、保持平稳(0)等。
上述样本数据可以是训练数据集中的数据,训练数据集中包括多组样本数据,每组样本数据包括:由起因事件信息和结果事件信息,以及结果事件对应的事件趋势。
在一种可选的实施例中,以使用上述方式进行投资分析为例,该方式可以由金融机构为用户提供的投资分析应用程序实现。用户在需要进行投资分析时,可以选择其想要了解的领域,应用程序获取到用户所选的领域后,在指定的网站或路径中爬取用户所选择的领域对应的新闻,得到事件信息。再根据事件信息确定事件向量,最后将事件向量输入至事件概率预测模型中,得到事件概率预测模型的预测结果,该预测结果即表示事件信息中的结果事件所对应的事件趋势。
由此可知,本申请上述实施例,获取事件信息,其中,事件信息包括:起因事件信息和结果事件信息;根据事件信息确定与事件信息对应的事件向量,其中,事件向量中包括:起因事件向量和结果事件向量;根据事件向量,基于事件概率预测模型,确定结果事件对应的趋势,其中,概率预测模型通过样本数据训练得到,样本数据包括:样本事件向量和样本事件向量对应的事件趋势。上述方案不需要用户在某个领域具有专业的知识,也不需要复杂的参数配置和算法,就可以得到较准确的事件分析结果,从而解决了目前金融分析的算法较为复杂的技术问题,进而节省了运算资源。尤其对于金融领域,用户不再需要有专业的金融知识,也不需要设置复杂的参数和配置算法,就可以得到类似于金融分析师分析的结果,从而让更多的人能够以较低的门槛获得专业的分析结果。
作为一种可选的实施例,根据事件信息确定与事件信息对应的事件向量,包括:获取事件信息中,用于表示起因事件信息的第一词语和用于表示结果事件信息的第二词语;基于第一词语和第二词语构成事件词语对;对事件词语对进行向量化处理,得到事件向量。
具体的,上述事件信息可以是用文本表示的句子,例如,以事件信息“泰囧热映后,光线传媒股价上升”为例,其中,“泰囧热映”即为第一词语,“光线传媒”即为第二词语。第一词语和第二词语构成的词语对即为(泰囧热映,光线传媒)。再在通过预设算法(例如,Word2vec技术)对词语对进行向量化处理,即可得到上述事件向量。
上述步骤中,通过事件信息确定词语对,再通过对词语对进行向量化处理,得到事件向量,从而得到的事件概率预测模型的输入数据,因此将该事件向量输入至事件概率预测模型,即可得到事件概率预测模型预测得到的事件的趋势。
作为一种可选的实施例,方法还包括:获取事件概率预测模型,其中,获取事件概率预测模型,包括:获取样本数据;基于样本数据对初始模型进行训练,得到事件概率预测模型。
具体的,在上述步骤中,样本数据所包含的样本事件向量可以是基于从历史新闻资讯中采集的事件信息生成的样本数据,样本数据中的事件趋势,可以是记录的事件的实际趋势。例如,对于事件信息“XXX董事长在美被起诉,XXX股价暴跌”,即可得到词语对(XXX董事长在美被起诉,XXX股价),以及该词语对对应的事件趋势(暴跌)。
使用训练数据集中的样本数据对初始模型进行训练后,还可以使用测试数据集对训练得到的模型进行测试,测试成功后即得到了上述的事件概率预测模型。
作为一种可选的实施例,获取样本数据,包括:获取样本文本;从样本文本中抽取具有指定关系的目标句式,其中,指定关系包括:因果关系和/或顺承关系,目标句式包括:用于表示起因事件信息的第三词语、用于表示结果事件信息的第四词语和结果事件信息对应的事件趋势;将第三词语和第四词语构成样本词语对,并根据结果事件的趋势确定样本词语对所对应的取值;对样本词语对进行向量化处理,得到样本事件向量;基于样本事件向量和样本词语对所对应的取值,构成样本数据。
具体的,上述样本文可以是爬取的财经新闻的文本信息,根据财经新闻中记载的内容,从中抽取具有因果关系和/或顺承关系的目标句式。具体方式可以为,检测文本信息中是否出现预设的关键词,如果出现预设的关键词,则确定出现关键词(例如:导致、引起、造成等)的句式为目标句式;抽取具有因果关系和/或顺承关系的目标句式的方法还可以包括,使用预设规则的正则表达式与样本文本中的句子进行匹配,从而得到目标句式。
根据结果事件的趋势确定样本词语对所对应的取值,可以是根据结果事件实际的趋势确定的用于表示事件趋势的数值,例如,股市上涨可以对应1,股市下跌可以对应-1等。
基于上述样本事件向量和事件趋势对应的取值,即可组合构成一组样本数据。
图2是根据本发明实施例的一种生成事件概率预测模型的示意图,在一种可选的实施例中,可以通过如下方式获取样本数据:
S21,收集财经新闻作为样本文本。
S23,抽取样本文本中的因果关系和顺承关系。
具体的,可以使用正则表达式的方法,得到所有起因和结果的子句。正则表达式定义如下:(.+)(导致|引起|造成)(.+)(下跌|上涨|上升|下降)。
S25,“因果事件对”向量化。
具体的,上述“因果事件对”即为上述的样本词语对。所有“因果事件对”都可以记为三元组(起因事件,结果事件,结果事件的趋势),其中结果事件的趋势包括上涨、下跌、上升,下降。例如,可以记录Y=s(结果事件的趋势),s(上涨)=s(上升)=1,s(下跌)=s(下降)=-1;X=u(起因事件,结果事件),可以利用Word2vec技术,把(起因事件,结果事件)转化为词向量。
作为一种可选的实施例,获取样本数据的步骤还包括:获取每两个目标句式之间的相似度;将相似度高于预设值的两个目标句式合并为一个句式。
具体的,通常情况下,同一个新闻可能会在不同的媒体上发布,且发布时所采用的文本信息相似但不相同,因此可能出现的情况是,同一个事件可能对应了多个目标句式,在此基础上,为了对表示用一个事件的多个目标句式进行去冗余处理,上述步骤将相似度较高的目标句式进行合并,从而将表示同一个事件的多个目标句式合并为一个句式。
上述步骤实际是基于这样的假设:表示同一个事件的目标句式的相似度高于预设值。因此,将相似度高于预设值的两个目标数据合并为一个句式。
需要说明的是,将两个目标句式合并为一个句式,可以是删除其一,保留其一。
作为一种可选的实施例,获取每两个目标句式之间的相似度,包括:将两个目标句式进行分析,得到分词结果,其中,分词结果中包括多个用于构成目标句式的词语;确定每个词语在两个目标词语中出现的次数;根据次数确定两个目标句式对应的词频向量;确定两个目标句式对应的词频向量的相似度为两个目标句式之间的相似度。
在一种可选的实施例中,仍以图2的步骤为例,基于上述步骤S25,所有因果事件对的格式都是“起因事件”+(导致|引起|造成)+“结果事件”+(下跌|上涨|上升|下降)。可以通过余弦相似度计算,分别实现“起因事件”、“结果事件”合一,即把类似的“起因事件”合并为同一起起因事件,把类似的“结果事件”合并为同一起结果事件。根据合并后的“起因事件”、“结果事件”,生成因果事件对的事理图谱。其中,余弦相似度计算类似事件的方式如下:
(1)对句子进行分词,分词可以采用成熟的分词库。句子A:“泰囧/热映/后,光线传媒/股价/上升”;句子B:“泰囧/上映/后,光线传媒/股价/上涨”;
(2)计算每个词语出现的频率。句子A:泰囧1、热映1、上映0、后1、光线传媒1、股价1、上升1、上涨0;句子B:泰囧1、热映0、上映1、后1、光线传媒1、股价1、上升0、上涨1;
(3)写出词频向量。句子A:(1,1,0,1,1,1,1,0),句子B:(1,0,1,1,1,1,0,1);
(4)运用余弦公式,计算句子A的词频向量和句子B的词频向量的相似度;
(5)当相似度大于预先设定的某个阈值的时候,认为句子A和句子B是同一个事件。
作为一种可选的实施例,在对样本词语对进行向量化处理,得到样本事件向量之前,上述方法还包括:根据样本词语对生成事理图谱;基于样本数据对初始模型进行训练,得到事件概率预测模型,包括:基于样本数据对初始的图神经网络进行训练,得到事件概率预测模型。
在上述步骤中,在对样本词语对进行向量化处理之前,还需要根据样本词语对生成事理图谱,然后对事理图谱中的样本词语对进行向量化处理,因此在该方案中构成的样本数据是以事理图谱来表示的样本数据。
在样本数据是以事理图谱来表示的样本数据的情况下,初始模型为图神经网络,最终训练得到的事件概率预测模型也为图神经网络(graph neural network,GNN)。
在一种可选的实施例中,仍以图2为例进行说明,在步骤S25前,还包括:
S24,生成因果事件对的事理图谱。
事理图谱是一个事理逻辑知识库,描述了事件之间的演化规律和模式。事理图谱只定义两种事件间关系:一种顺承,一种因果,这两种关系都有时间顺序。
进而在步骤S25后,还包括:
S27,基于向量化的“因果事件对”,建立“因果事件对”概率预测模型。
利用图神经网络GNN,建立X与Y的非线性映射关系,计算Y=1的概率,即事件的发展趋势为预设趋势的概率(1用于表示上述的预设趋势)。其中X和Y的定义与步骤S25中X和Y的定义保持一致。
实施例2
根据本发明实施例,提供了一种数据的处理装置的实施例,图3是根据本发明实施例的数据的处理装置的示意图,如图3所示,该装置包括:
获取模块30,用于获取事件信息,其中,事件信息包括:起因事件信息和结果事件信息。
第一确定模块32,用于根据事件信息确定与事件信息对应的事件向量,其中,事件向量中包括:起因事件向量和结果事件向量。
第二确定模块34,用于根据事件向量,基于事件概率预测模型,确定结果事件信息所表示的结果事件对应的事件趋势,其中,事件概率预测模型通过样本数据训练得到,样本数据包括:样本事件向量和样本事件向量对应的事件趋势。
作为一种可选的实施例,第一确定模块包括:
第一获取子模块,用于获取事件信息中,用于表示起因事件信息的第一词语和用于表示结果事件信息的第二词语;
构成子模块,用于基于第一词语和第二词语构成事件词语对;
处理子模块,用于对事件词语对进行向量化处理,得到事件向量。
作为一种可选的实施例,上述方法还包括:第二获取子模块,用于获取事件概率预测模型,其中,第二获取子模块包括:第三获取子模块,用于获取样本数据;训练子模块,用于基于样本数据对初始模型进行训练,得到事件概率预测模型。
作为一种可选的实施例,第三获取子模块包括:第一获取单元,用于获取样本文本;抽取单元,用于从样本文本中抽取具有指定关系的目标句式,其中,指定关系包括:因果关系和/或顺承关系,目标句式包括:用于表示起因事件信息的第三词语、用于表示结果事件信息的第四词语和结果事件信息对应的事件趋势;确定单元,用于将第三词语和第四词语构成样本词语对,并根据结果事件的事件趋势确定样本词语对所对应的取值;处理单元,用于对样本词语对进行向量化处理,得到样本事件向量;构成单元,用于基于样本事件向量和样本词语对所对应的取值,构成样本数据。
作为一种可选的实施例,第三获取子模块还包括:第二获取单元,用于获取每两个目标句式之间的相似度;合并单元,用于将相似度高于预设值的两个目标句式合并为一个句式。
作为一种可选的实施例,第二获取单元包括:分析子单元,用于将两个目标句式进行分析,得到分词结果,其中,分词结果中包括多个用于构成目标句式的词语;第一确定子单元,用于确定每个词语在两个目标词语中出现的次数;确定子单元,用于根据次数确定两个目标句式对应的词频向量;第二确定子单元,用于确定两个目标句式对应的词频向量的相似度为两个目标句式之间的相似度。
作为一种可选的实施例,上述装置还包括:生成子模块,用于在对样本词语对进行向量化处理,得到样本事件向量之前,根据样本词语对生成事理图谱;训练子模块包括:训练子模块,用于训练基于样本数据对初始的图神经网络进行训练,得到事件概率预测模型。
实施例3
根据本发明实施例,提供了一种存储介质,存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行上述实施例1所述的数据的处理方法。
实施例4
根据本发明实施例,提供了一种存储介质,存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行实施例1所述的数据的处理方法。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种数据的处理方法,其特征在于,包括:
获取事件信息,其中,所述事件信息包括:起因事件信息和结果事件信息;
根据所述事件信息确定与所述事件信息对应的事件向量,其中,所述事件向量中包括:起因事件向量和结果事件向量;
根据所述事件向量,基于事件概率预测模型,确定所述结果事件信息所表示的结果事件对应的事件趋势,其中,所述事件概率预测模型通过样本数据训练得到,所述样本数据包括:样本事件向量和所述样本事件向量对应的事件趋势。
2.根据权利要求1所述的方法,其特征在于,根据所述事件信息确定与所述事件信息对应的事件向量,包括:
获取所述事件信息中,用于表示所述起因事件信息的第一词语和用于表示所述结果事件信息的第二词语;
基于所述第一词语和所述第二词语构成事件词语对;
对所述事件词语对进行向量化处理,得到所述事件向量。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:获取所述事件概率预测模型,其中,获取所述事件概率预测模型,包括:
获取所述样本数据;
基于所述样本数据对初始模型进行训练,得到所述事件概率预测模型。
4.根据权利要求3所述的方法,其特征在于,获取所述样本数据,包括:
获取样本文本;
从所述样本文本中抽取具有指定关系的目标句式,其中,所述指定关系包括:因果关系和/或顺承关系,所述目标句式包括:用于表示起因事件信息的第三词语、用于表示结果事件信息的第四词语和所述结果事件信息对应的事件趋势;
将所述第三词语和所述第四词语构成样本词语对,并根据所述结果事件的事件趋势确定所述样本词语对所对应的取值;
对所述样本词语对进行向量化处理,得到样本事件向量;
基于所述样本事件向量和所述样本词语对所对应的取值,构成所述样本数据。
5.根据权利要求4所述的方法,其特征在于,获取所述样本数据的步骤还包括:
获取每两个目标句式之间的相似度;
将相似度高于预设值的两个目标句式合并为一个句式。
6.根据权利要求5所述的方法,其特征在于,获取每两个目标句式之间的相似度,包括:
将所述两个目标句式进行分析,得到分词结果,其中,所述分词结果中包括多个用于构成所述目标句式的词语;
确定每个词语在所述两个目标词语中出现的次数;
根据所述次数确定所述两个目标句式对应的词频向量;
确定所述两个目标句式对应的词频向量的相似度为所述两个目标句式之间的相似度。
7.根据权利要求4所述的方法,其特征在于,
在对所述样本词语对进行向量化处理,得到样本事件向量之前,所述方法还包括:根据所述样本词语对生成事理图谱;
基于所述样本数据对初始模型进行训练,得到所述事件概率预测模型,包括:基于所述样本数据对初始的图神经网络进行训练,得到所述事件概率预测模型。
8.一种数据的处理装置,其特征在于,包括:
获取模块,用于获取事件信息,其中,所述事件信息包括:起因事件信息和结果事件信息;
第一确定模块,用于根据所述事件信息确定与所述事件信息对应的事件向量,其中,所述事件向量中包括:起因事件向量和结果事件向量;
第二确定模块,用于根据所述事件向量,基于事件概率预测模型,确定所述结果事件信息所表示的结果事件对应的事件趋势,其中,所述事件概率预测模型通过样本数据训练得到,所述样本数据包括:样本事件向量和所述样本事件向量对应的事件趋势。
9.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行权利要求1至7中任意一项所述的数据的处理方法。
10.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1至7中任意一项所述的数据的处理方法。
CN202010002274.XA 2020-01-02 2020-01-02 数据的处理方法和装置 Pending CN113065329A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010002274.XA CN113065329A (zh) 2020-01-02 2020-01-02 数据的处理方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010002274.XA CN113065329A (zh) 2020-01-02 2020-01-02 数据的处理方法和装置

Publications (1)

Publication Number Publication Date
CN113065329A true CN113065329A (zh) 2021-07-02

Family

ID=76558209

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010002274.XA Pending CN113065329A (zh) 2020-01-02 2020-01-02 数据的处理方法和装置

Country Status (1)

Country Link
CN (1) CN113065329A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116561186A (zh) * 2023-07-11 2023-08-08 荣耀终端有限公司 一种因果样本构建方法、服务器及存储介质
CN116578597A (zh) * 2023-07-11 2023-08-11 荣耀终端有限公司 一种原因事件构建方法、电子设备及存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116561186A (zh) * 2023-07-11 2023-08-08 荣耀终端有限公司 一种因果样本构建方法、服务器及存储介质
CN116578597A (zh) * 2023-07-11 2023-08-11 荣耀终端有限公司 一种原因事件构建方法、电子设备及存储介质
CN116578597B (zh) * 2023-07-11 2024-03-15 荣耀终端有限公司 一种原因事件构建方法、电子设备及存储介质
CN116561186B (zh) * 2023-07-11 2024-03-15 荣耀终端有限公司 一种因果样本构建方法、服务器及存储介质

Similar Documents

Publication Publication Date Title
WO2020192401A1 (en) System and method for generating answer based on clustering and sentence similarity
CN107391493B (zh) 一种舆情信息提取方法、装置、终端设备及存储介质
CN108536852A (zh) 问答交互方法和装置、计算机设备及计算机可读存储介质
CN110929038A (zh) 基于知识图谱的实体链接方法、装置、设备和存储介质
Bhakuni et al. Evolution and evaluation: Sarcasm analysis for twitter data using sentiment analysis
CN115063035A (zh) 基于神经网络的客户评估方法、系统、设备及存储介质
CN113065329A (zh) 数据的处理方法和装置
CN110968664A (zh) 一种文书检索方法、装置、设备及介质
CN113204643B (zh) 一种实体对齐方法、装置、设备及介质
CN110795613A (zh) 商品搜索方法、装置、系统及电子设备
CN115374259A (zh) 一种问答数据挖掘方法、装置及电子设备
Alksher et al. A review of methods for mining idea from text
Sandhiya et al. A review of topic modeling and its application
CN112395881B (zh) 物料标签的构建方法、装置、可读存储介质及电子设备
CN110287270B (zh) 实体关系挖掘方法及设备
US11295078B2 (en) Portfolio-based text analytics tool
JP6178480B1 (ja) データ分析システム、その制御方法、プログラム、及び、記録媒体
CN113837836A (zh) 模型推荐方法、装置、设备及存储介质
CN111061924A (zh) 词组提取方法、装置、设备和存储介质
CN116955560B (zh) 基于思考链和知识图谱的数据处理方法及系统
CN115470322B (zh) 一种基于人工智能的关键词生成系统及方法
AlZaabi Correlating Sentiment in Reddit’s Wallstreetbets with the Stock Market Using Machine Learning Techniques
CN111767716B (zh) 企业多级行业信息的确定方法、装置及计算机设备
Ali et al. Identifying and Profiling User Interest over time using Social Data
Kollu et al. Social and Movie Video Data Analysis for Representing Sentiments based on ML Approaches

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination