CN112732894A - 信息抽取方法、装置、电子设备及存储介质 - Google Patents

信息抽取方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN112732894A
CN112732894A CN202110057358.8A CN202110057358A CN112732894A CN 112732894 A CN112732894 A CN 112732894A CN 202110057358 A CN202110057358 A CN 202110057358A CN 112732894 A CN112732894 A CN 112732894A
Authority
CN
China
Prior art keywords
word
evaluation
text
combination
term
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110057358.8A
Other languages
English (en)
Inventor
林静琼
张晓敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Oppo Mobile Telecommunications Corp Ltd
Shenzhen Huantai Technology Co Ltd
Original Assignee
Guangdong Oppo Mobile Telecommunications Corp Ltd
Shenzhen Huantai Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Oppo Mobile Telecommunications Corp Ltd, Shenzhen Huantai Technology Co Ltd filed Critical Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority to CN202110057358.8A priority Critical patent/CN112732894A/zh
Publication of CN112732894A publication Critical patent/CN112732894A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/325Hash tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/383Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/44Statistical methods, e.g. probability models

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Library & Information Science (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种信息抽取方法、装置、电子设备及存储介质。其中,所述方法包括:从第一文本中提取至少一个第一词语组合;所述第一词语组合由第一词语与第二词语组成;所述第一词语表征所述第一文本中的评价对象;所述第二词语表征评价所述第一词语的评价词语;根据设定数据库确定所述至少一个第一词语组合中每个第一词语组合对应的第一概率;所述设定数据库用于存储评价对象与评价词语的匹配概率;所述第一概率表征第一词语与第二词语的匹配概率;将所述至少一个第一词语组合中第一概率大于或等于设定阈值的第一词语组合提取为所述第一文本的信息抽取结果;所述信息抽取结果表征所述第一文本的评价观点。

Description

信息抽取方法、装置、电子设备及存储介质
技术领域
本申请涉及数据技术领域,尤其涉及一种信息抽取方法、装置、电子设备及存储介质。
背景技术
相关技术中,需要从用户发表的评论或者用于表达观点的文字中提取观点进行数据分析,在提取观点的时候可以通过数据模型、序列标注或者根据词性结果抽取相应的信息,但是需要耗费大量的资源,并且复杂度高,降低了信息抽取的准确率。
发明内容
有鉴于此,本申请实施例提供一种信息抽取方法、装置、电子设备及存储介质,以至少解决相关技术在进行信息抽取过程中需要耗费大量的资源、准确率低的问题。
本申请实施例的技术方案是这样实现的:
本申请实施例提供了一种信息抽取方法,包括:
从第一文本中提取至少一个第一词语组合;所述第一词语组合由第一词语与第二词语组成;所述第一词语表征所述第一文本中的评价对象;所述第二词语表征评价所述第一词语的评价词语;
根据设定数据库确定所述至少一个第一词语组合中每个第一词语组合对应的第一概率;所述设定数据库用于存储评价对象与评价词语的匹配概率;所述第一概率表征第一词语与第二词语的匹配概率;
将所述至少一个第一词语组合中第一概率大于或等于设定阈值的第一词语组合提取为所述第一文本的信息抽取结果;所述信息抽取结果表征所述第一文本的评价观点。
上述方案中,通过以下方式生成设定数据库:
基于至少一个第二文本,确定第一集合;所述第二文本为文本样本;所述第一集合为由所述至少一个第二文本中的所有评价对象和所有评价词语组成的集合;
对所述第一集合中的每个词语添加第一信息;所述第一信息用于表征词语的词语类型;所述词语类型包括评价对象或评价词语;
基于第一集合中每个词语的第一信息,确定第一集合中每个第二词语组合对应的匹配概率;所述第二词语组合由所述第一集合中的一个评价对象和一个评价词语组成。
上述方案中,所述设定数据库以哈希存储的方式将评价对象与评价词语的匹配概率进行存储。
上述方案中,所述从第一文本中提取第一词语组合,包括:
确定所述第一文本中的所述第一词语;
基于所述第一词语在所述第一文本中的位置,在设定长度的滑动窗口内确定与所述第一词语对应的第二词语。
上述方案中,所述确定所述第一文本中的所述第一词语,包括:
根据所述设定数据库存储的评价对象,将所述第一文本中词语类型为评价对象的词语确定为所述第一词语;
所述在设定的滑动窗口内确定与所述第一词语对应的第二词语,包括:
根据所述设定数据库存储的评价词语,将所述设定的滑动窗口内词语类型为评价词语的词语确定为所述第二词语。
上述方案中,所述设定数据库还包括评价对象的第二信息与评价词语的第二信息,所述第二信息用于表征对应的词语能否独立表达评价观点;所述方法还包括:
在所述至少一个第一词语组合中不存在第一词语组合对应的第一概率大于或等于设定阈值时,根据所述设定数据库的第二信息,将所述至少一个第一词语组合中符合设定条件的第一词语或第二词语确定为所述第一文本的信息抽取结果;所述第一设定条件表征词语能独立表达评价观点。
上述方案中,所述方法还包括:
在所述至少一个第一词语组合中每个第一词语组合的第一词语或第二词语均不符合所述设定条件的情况下,根据所述设定数据库存储的评价词语,将所述第一文本中词语类型为评价词语的词语确定为第三词语;
根据所述设定数据库的第二信息,将符合所述设定条件的第三词语确定为所述第一文本的信息抽取结果。
本申请实施例还提供了一种信息抽取装置,包括:
第一提取单元,从第一文本中提取至少一个第一词语组合;所述第一词语组合由第一词语与第二词语组成;所述第一词语表征所述第一文本中的评价对象;所述第二词语表征评价所述第一词语的评价词语;
第一确定单元,用于根据设定数据库确定所述至少一个第一词语组合中每个第一词语组合对应的第一概率;所述设定数据库用于存储评价对象与评价词语的匹配概率;所述第一概率表征第一词语与第二词语的匹配概率;
第二提取单元,用于将所述至少一个第一词语组合中第一概率大于或等于设定阈值的第一词语组合提取为所述第一文本的信息抽取结果;所述信息抽取结果表征所述第一文本的评价观点。
本申请实施例还提供了一种电子设备,包括:处理器和用于存储能够在处理器上运行的计算机程序的存储器,
其中,所述处理器用于运行所述计算机程序时,执行上述任一方法的步骤。
本申请实施例还提供了一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一方法的步骤。
在本发明实施例中,从第一文本中提取至少一个第一词语组合,第一词语组合由第一词语与第二词语组成,第一词语表征第一文本中的评价对象,第二词语表征评价第一词语的评价词语,根据设定数据库确定至少一个第一词语组合中每个第一词语组合对应的第一概率,设定数据库用于存储评价对象与评价词语的匹配概率,第一概率表征第一词语与第二词语的匹配概率,将至少一个第一词语组合中第一概率大于或等于设定阈值的第一词语组合提取为第一文本的信息抽取结果,信息抽取结果表征第一文本的评价观点,能够根据构建的设定数据库,利用匹配概率的统计意义,提取待处理文本中的有效观点,避免使用复杂的算法进行信息的抽取,从而能够提高信息抽取的效率以及提高信息抽取的准确性。
附图说明
图1为本发明一实施例提供的信息抽取方法的实现流程示意图;
图2为本发明又一实施例提供的信息抽取方法的实现流程示意图;
图3为本发明又一实施例提供的信息抽取方法的实现流程示意图;
图4为本发明又一实施例提供的信息抽取方法的实现流程示意图;
图5为本发明一应用实施例提供的信息抽取方法的流程示意图;
图6为本发明一实施例提供的信息抽取装置的结构示意图;
图7为本发明一实施例提供的电子设备的硬件组成结构示意图。
具体实施方式
下面结合附图及具体实施例对本申请作进一步详细的说明。
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的系统、装置以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
需要说明的是,本申请实施例所记载的技术方案之间,在不冲突的情况下,可以任意组合。
另外,在本申请实施例中,“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
本申请实施例提供了一种信息抽取方法,图1为本申请实施例的信息抽取方法的一种流程示意图。如图1所示,所述方法包括:
S101:从第一文本中提取至少一个第一词语组合;所述第一词语组合由第一词语与第二词语组成;所述第一词语表征所述第一文本中的评价对象;所述第二词语表征评价所述第一词语的评价词语。
这里,从第一文本提取至少一个第一词语组合,其中,第一文本可以为需要进行信息抽取的待处理文本,每一个第一词语组合由第一词语与第二词语组成,第一词语表征第一文本中的评价对象,在实际应用中,评价对象的词性通常为名词,因此,在提取第一词语组合的时候,可以在第一文本中的词性为名词的词语中确定第一词语组合中的第一词语。第二词语表征评价第一词语的评价词语,在第二文本中,第二词语为评价词语,并且第二词语是用于评价第一词语,因此,在实际应用中,可以先确定第一文本中的第一词语,再根据第一词语确定第二词语,将确定得到的第一词语与第一词语对应的第二词语组成第一词语组合。在实际应用中,评价观点是由评价对象以及对评价对象的评价语组成的,第一词语组合中包含第一词语与第二词语,因此第一词语组合为第一文本提取得到的候选观点,在实际应用中,可以从第一文本提取至少一个第一词语组合,示例地,第一词语“耗电”与第一词语“耗电”对应的第二词语“准确”可以组成第一组第一词语组合“耗电+准确”,第一词语“手机”与第一词语“手机”对应的第二词语“运转快”可以组成第二组第一词语组合“手机+运转快”。
在一实施例中,如图2所示,所述从第一文本中提取第一词语组合,包括:
S201:确定所述第一文本中的所述第一词语。
这里,确定第一文本中的第一词语,也就是说,提取第一文本中的评价对象,从而将提取得到的词语确定为第一词语。
S202:基于所述第一词语在所述第一文本中的位置,在设定长度的滑动窗口内确定与所述第一词语对应的第二词语。
这里,由于评价观点是通过评价对象与评价词语组成的,在此基础上,不同的评价词语的评价对象是不相同,因此需要分别确定第一文本中不同评价对象对应的评价词语。基于第一词语在第一文本中的位置,在设定长度的滑动窗口内确定与第一词语对应的第二词语,在实际应用中,认为落入设定长度的滑动窗口的第二词语的评价对象为第一词语,从而将落入设定长度的滑动窗口的评价词语提取为第一词语对应的第二词语。
在上述实施例中,确定第一文本中的第一词语,基于第一词语在第一文本中的位置,在设定长度的滑动窗口内确定与第一词语对应的第二词语,从而能够得到待处理文本中的评价对象以及评价对象对应的评价词语,提高了从待处理文本中提取候选评价观点的效率与准确性,从而有利于准确地获取待处理文本所表达的评价观点。
在一实施例中,所述确定所述第一文本中的所述第一词语,包括:
根据所述设定数据库存储的评价对象,将所述第一文本中词语类型为评价对象的词语确定为所述第一词语。
这里,在设定数据库中存储评价对象与评价词语的匹配概率的时候,设定数据库相应地存储了表征评价对象的词语。根据设定数据库存储的词语中的评价对象,将第一文本中词语类型为评价对象的词语确定为第一词语,从而能够提取第一文本中的第一词语。在实际应用中,为了更好地区分设定数据库中表征评价对象的词语与表征评价词语的词语,还会对词语标注词语的类型,从而能够根据设定数据库中词语附带的标注,确定设定数据库中表征评价对象的词语,从而能够提高从第一文本中提取第一词语的效率。
所述在设定的滑动窗口内确定与所述第一词语对应的第二词语,包括:
根据所述设定数据库存储的评价词语,将所述设定的滑动窗口内词语类型为评价词语的词语确定为所述第二词语。
这里,设定数据库还存储了表征评价词语的词语,根据设定数据库存储的词语中的评价词语,将设定的滑动窗口内词语类型为评价词语的词语确定为第二词语。在实际应用中,设定数据库在存储词语的时候,还会对词语附带的标注,通过词语附带的标注,能够确定词语的词语类型,从而能够通过设定数据库中词语附带的标注,将设定的滑动窗口中语言类型为评价词语的词语确定第二词语。
在上述实施例中,根据设定数据库存储的评价对象,将第一文本中词语类型为评价对象的词语确定为第一词语,根据设定数据库存储的评价词语,将设定的滑动窗口内词语类型为评价词语的词语确定为第二词语,从而能够根据设定数据库中存储的词语的词语类型,准确地提取待处理文本中的评价对象与评价词语,有利于提高了信息抽取的处理效率。
S102:根据设定数据库确定所述至少一个第一词语组合中每个第一词语组合对应的第一概率;所述设定数据库用于存储评价对象与评价词语的匹配概率;所述第一概率表征所述第一词语与所述第二词语的匹配概率。
这里,根据设定数据库确定至少一个第一词语组合对应的第一概率。设定数据库中存储不同评价对象与不同评价词语之间的匹配概率,在实际应用中,将至少一个第一词语组合在设定数据库中配对,从而能够确定至少一个第一词语组合中每个第一词语组合对应的第一概率,第一概率表征第一词语与第二词语的匹配概率,通过第一概率的大小,可以确定第一词语与第二词语之间的配对的可能性,当第一概率越大,表示第一词语与第二词语为常见的搭配组合,符合日常生活中的表达习惯,当第一概率越小,表示第一词语与第二词语为不常见的搭配组合,不符合日常生活中的表达习惯。
S103:将所述至少一个第一词语组合中第一概率大于或等于设定阈值的第一词语组合提取为所述第一文本的信息抽取结果;所述信息抽取结果表征所述第一文本的评价观点。
这里,将至少一个第一词语组合中第一概率大于或等于设定阈值的第一词语组合提取为第一文本的信息抽取结果,当第一词语组合对应的第一概率大于或等与设定阈值时,表示第一词语组合中的第一词语与第二词语的匹配度高,第一词语组合能够作为有效结果进行输出,其中,信息抽取结果表征第一文本的评价观点,从而能够从第一文本中提取并且得到有效的评价观点。在实际应用中,设定阈值能够选出有效的评价观点与无效的评价观点,避免从第一文本中抽取出错误或者无效的评价观点。
在上述实施例中,从第一文本中提取至少一个第一词语组合,第一词语组合由第一词语与第二词语组成,第一词语表征第一文本的评价对象,第二词语表征评价第一词语的评价词语,根据设定数据库确定至少一个第一词语组合对应的第一概率,设定数据库用于存储评价对象与评价词语的匹配概率,第一概率表征第一词语与第二词语的匹配概率,将至少一个第一词语组合中第一概率大于或等于设定阈值的第一词语组合提取为第一文本的信息抽取结果,信息抽取结果表征第一文本的评价观点,从而能够从第一文本中提取不同的候选观点,并且根据匹配概率判断观点的有效性,避免通过复杂的句法分析提取观点,从而能够提高信息抽取的效率并且有利于提高信息抽取的准确性。
在一实施例中,如图3所示,通过以下方式生成设定数据库:
S301:基于至少一个第二文本,确定第一集合;所述第二文本为文本样本;所述第一集合为由所述至少一个第二文本中的所有评价对象和所有评价词语组成的集合。
这里,基于至少一个第二文本,确定第一集合,其中,第二文本为文本样本,在实际应用中,第二文本为大量的无标注数据,第一集合为由至少一个第二文本中的所有评价对象和所有评价词语组成的结合。在实际应用中,根据词频和逆文档次数等不同的参数,可以提取至少一个第二文本中的所有评价对象和所有评价词语,从而生成第一集合,其中,逆文档次数可以评估一个词语的重要程度。
S302:对所述第一集合中的每个词语添加第一信息;所述第一信息用于表征词语的词语类型;所述词语类型包括评价对象或评价词语。
这里,在确定第一集合之后,由于第一集合包含了评价对象和评价词语,对第一集合中的每个词语添加第一信息,其中,第一信息用于表征词语的词语类型,词语类型包括评价对象或评价词语,从而能够将第一集合中的评价对象以及评价词语。在实际应用中,可以通过人工辅助筛选和区分第一集合中的评价对象和评价词语。
S303:基于第一集合中每个词语的第一信息,确定第一集合中每个第二词语组合对应的匹配概率;所述第二词语组合由所述第一集合中的一个评价对象和一个评价词语组成。
这里,基于第一集合中每个词语的第一信息,确定第一集合中每个第二词语组合对应的匹配概率,其中,第二词语组合由第一集合中评价对象和评价词语组成,由于第一信息表征词语的词语类型,从而能够使得不同的评价对象和评价词语进行匹配,生成不同的第二词语组合。在实际应用中,先确定文本中的评价对象,基于评价对象在文本中的位置,提取落入一定长度的滑动窗口的评价词语,从而将评价对象与落入一定长度的滑动窗口的评价词语组成一个第二词语组合,因此,第二词语组合中的评价词语是用于评价第二词语组合中的评价对象。在实际应用中,第二词语组合对应的匹配概率表征第二词语组合中的评价对象与评价词语之间的匹配程度。在实际应用中,通过第二词语组合中评价对象的出现次数与评价词语的出现次数,以及第二词语组合的出现次数,可以计算得到第二词语组合对应的第一概率,示例地,统计第二词语组合A中评价对象在至少一个第二文本中出现的次数,记为第一频数,统计第二词语组合A中评价词语在至少一个第二文本中出现的次数,记为第二频数,将第一频数与第二频数的和记为第三频数。统计第二词语组合A在所有第二词语组合中出现的次数,记为第四频数,那么可以得到第二词语组合A对应的匹配概率为第四频数与第三频数的商。
在上述实施例中,基于至少一个第二文本,确定第一集合,第二文本为文本样本,第一集合为由至少一个第二文本中的所有评价对象和所有评价词语组成的集合,对第一集合中的每个词语添加第一信息,第一信息用于表征词语的词语类型,词语类型包括评价对象或评价词语,基于第一集合中每个词语的第一信息,确定第一集合中每个第二词语组合对应的匹配概率,第二词语组合由第一集合中的一个评价对象和一个评价词语组成,能够在大量无标注数据的基础上提取评价对象和评价词语,并且进行概率统计,算法速度高效。
在一实施例中,所述设定数据库以哈希存储的方式将评价对象与评价词语的匹配概率进行存储。
这里,在建立设定数据库的过程中,将评价对象与评价词语的匹配概率以哈希存储的方式存储到设定数据库中,从而完成设定数据库的建立。在实际应用中,设定数据库中需要存储大量的评价对象与评价词语的匹配概率,通过哈希存储,能够根据一定的函数关系,计算得到对应的函数值,函数值为匹配概率的存储地址,从而能够在设定数据库中查找对应的匹配概率的时候,根据相同的函数关系计算得到存储地址,能够快速地查找到相应的数据。
在上述实施例中,设定数据库以哈希存储的方式将评价对象与评价词语的匹配概率进行存储,从而能够实现匹配概率的有效存储,并且提高了查找相应的匹配概率的效率。
在一实施例中,所述设定数据库还包括评价对象的第二信息与评价词语的第二信息,所述第二信息用于表征对应的词语能否独立表达评价观点;所述方法还包括:
在所述至少一个第一词语组合中不存在第一词语组合对应的第一概率大于或等于设定阈值时,根据所述设定数据库的第二信息,将所述至少一个第一词语组合中符合设定条件的第一词语或第二词语确定为所述第一文本的信息抽取结果;所述第一设定条件表征词语能独立表达评价观点。
这里,当至少一个第一词语组合中不存在第一词语组合对应的第一概率大于或等于设定阈值时,说明至少一个第一词语组合中每个第一词语组合为无效评价观点,不能从至少一个第一词语组合中生成并输出有效的评价观点,在这种情况下,根据设定数据库的第二信息,将至少一个第一词语组合中符合设定条件的第一词语或第二词语确定为第一文本的信息抽取结果,其中,第一设定条件表征词语能独立表达评价观点。在实际应用中,设定数据库中存储了评价对象的第二信息与评价词语的第二信息,第二信息用于表征被标注的词语能否独立表达评价观点,在实际应用中,有效的评价观点通常是由评价对象与评价词语组成的,而在特殊的情况下,评价对象或者评价词语能够独立表达评价观点,并且单个词语表达的评价观点的意思完整、清晰,因此,可以将能独立表达评价观点的词语输出作为第一文本的信息抽取结果。在实际应用中,根据设定数据库中的第二信息,确定至少一个第一词语组合中是否存在符合设定条件的第一词语或第二词语,示例地,一个第一词语组合为“耗电+准确”,其中,“耗电”为第一词语,“准确”为第二词语,在设定数据库中确定“耗电”对应的第二信息以及确定“准确”对应的第二信息,“耗电”对应的第二信息表征“耗电”能独立表达评价观点,而“准确”对应的第二信息表征“准确”不能独立表达评价观点,从而将“耗电”确定为第一文本的信息抽取结果。
在上述实施例中,设定数据库还包括评价对象的第二信息与评价词语的第二信息,第二信息用于表征对应的词语能否独立表达评价观点,在至少一个第一词语组合中不存在第一词语组合对应的第一概率大于或等于设定阈值时,根据设定数据库的第二信息,将至少一个第一词语组合中符合设定条件的第一词语或第二词语确定为第一文本的信息抽取结果,第一设定条件表征词语能够独立表达评价观点,能够根据过滤大量无情感或无意义的词语,从而能够根据词语的表达的情感和内容,确定评价观点,有利于提高信息抽取的准确率。
在一实施例中,如图4所示,所述方法还包括:
S401:在所述至少一个第一词语组合中每个第一词语组合的第一词语或第二词语均所述设定条件的情况下,根据所述设定数据库存储的评价词语,将所述第一文本中词语类型为评价词语的词语确定为第三词语。
这里,当至少一个第一词语组合中每个第一词语组合的第一词语或第二词语不符合设定条件的情况下,表明至少一个第一词语组合中的第一词语和第二词语均不能独立表达评价观点,根据设定数据库存储的评价词语,将第一文本中词语类型为评价词语的词语确定为第三词语,从而提取第一文本中全部评价词语。
S402:根据所述设定数据库的第二信息,将符合所述设定条件的第三词语确定为所述第一文本的信息抽取结果。
这里,根据设定数据库的第二信息,将符合设定条件的第三词语确定为第一文本的信息抽取结果,在实际应用中,评价观点中最重要的部分为评价词语,从而能够确定评价观点为正面评价观点、反面评价观点还是中性评价观点,因此,可以在第一文本含有的评价词语中确定第一文本的评价观点,根据设定数据库的第二信息,能够确定第三词语是否能够独立表达评价观点,从而将符合设定条件的第三词语确定为第一文本的信息抽取结果。在实际应用中,设定数据库还可以存储词语的表达的情感色彩,从而能够根据设定数据库中存储词语对应的情感色彩,确定第一文本的评价观点为正面评价观点、反面评价观点还是中性评价观点。示例地,对“运行快”标记的情感色彩为正面的情感色彩,当第一文本的评价观点为“运行快”时,可以确定第一文本得到的评价观点为正面评价观点,从而有利于对确定评价观点所表征的态度。
在上述实施例中,在至少一个第一词语组合中每个第一词语组合的第一词语或第二词语均不符合设定条件的情况下,根据设定数据库存储的评价词语,将第一文本中词语类型为评价词语的词语确定为第三词语,根据设定数据库的第二信息,将符合设定条件的第三词语确定为第一文本的信息抽取结果,能够根据将文本中能够独立表达评价观点的评价词语作为文本的评价观点,能够输出带有一定的情感和意义的评价观点,使得评价观点具有参考意义,从而提高了信息抽取的效果。
本申请还提供了一应用实施例,如图5所示,图5示出了信息抽取的一种流程示意图。
S501:基于至少一个文本样本,确定第一集合,其中,第一集合由至少一个第二文本中的所有评价对象和所有评价词语组成的集合。
S502:对第一集合中的每个词语添加第一信息与第二信息,其中,第一信息表征词语的词语类型,词语类型包括评价对象或评价词语,第二信息表征词语能否独立表达评价观点。
S503:确定第一集合中每个词语组合的匹配概率,第一集合中的词语组合由第一集合的评价对象与评价对象对应的评价词语组成。
S504:以哈希存储的方式将第一集合中每个词语组合的匹配概率存储到设定的数据库中。
S505:基于待处理文本,确定至少一个第一词语组合,第一词语组合由待处理文本中的评价对象和评价对象对应的评价词语组成。
S506:确定至少一个第一词语组合中每个第一词语组合对应的第一概率,其中,第一概率表征词语组合中的评价对象和评价对象对应的评价词语的匹配概率。
S507:至少一个第一词语组合中是否存在第一概率大于或等于设定阈值的第一词语组合。
S508:当存在至少一个第一词语组合第一概率大于或等于设定阈值的第一词语组合时,将第一概率大于或等于设定阈值的第一词语组合作为待处理文本的评价观点。
S509:当不存在至少一个第一词语组合第一概率大于或等于设定阈值的第一词语组合时,根据设定数据库中的第二信息,确定至少一个第一词语组合中是否存在满足设定条件的评价对象或评价对象对应的评价词语,其中,设定条件表征词语能够独立表达评价观点。
S510:当存在至少一个第一词语组合中存在满足设定条件的评价对象或评价对象对应的评价词语的情况下,将至少一个第一词语组合中存在满足设定条件的评价对象或评价对象对应的评价词语确定为待处理文本的评价观点。
S511:当不存在至少一个第一词语组合中存在满足设定条件的评价对象或评价对象对应的评价词语的情况下,将第一文本中所有评价词语中满足设定条件的评价词语确定为待处理文本的评价观点。
为实现本申请实施例的方法,本申请实施例还提供了一种信息抽取装置,如图6所示,该装置包括:
第一提取单元601,从第一文本中提取至少一个第一词语组合;所述第一词语组合由第一词语与第二词语组成;所述第一词语表征所述第一文本中的评价对象;所述第二词语表征评价所述第一词语的评价词语;
第一确定单元602,用于根据设定数据库确定所述至少一个第一词语组合中每个第一词语组合对应的第一概率;所述设定数据库用于存储评价对象与评价词语的匹配概率;所述第一概率表征第一词语与第二词语的匹配概率;
第二提取单元603,用于将所述至少一个第一词语组合中第一概率大于或等于设定阈值的第一词语组合提取为所述第一文本的信息抽取结果;所述信息抽取结果表征所述第一文本的评价观点。
在一实施例中,生成所述设定数据库包括:
第二确定单元,用于基于至少一个第二文本,确定第一集合;所述第二文本为文本样本;所述第一集合为由所述至少一个第二文本中的所有评价对象和所有评价词语组成的集合;
第一添加单元,用于对所述第一集合中的每个词语添加第一信息;所述第一信息用于表征词语的词语类型;所述词语类型包括评价对象或评价词语;
第三确定单元,用于基于第一集合中每个词语的第一信息,确定第一集合中每个第二词语组合对应的匹配概率;所述第二词语组合由所述第一集合中的一个评价对象和一个评价词语组成。
在一实施例中,存储单元以哈希存储的方式将评价对象与评价词语的匹配概率进行存储至所述设定数据库中。
在一实施例中,所述第一提取单元601从第一文本中提取第一词语组合,包括:
确定所述第一文本中的所述第一词语;
基于所述第一词语在所述第一文本中的位置,在设定长度的滑动窗口内确定与所述第一词语对应的第二词语。
在一实施例中,所述第一提取单元601确定所述第一文本中的所述第一词语,包括:
根据所述设定数据库存储的评价对象,将所述第一文本中词语类型为评价对象的词语确定为所述第一词语;
所述第一提取单元601在设定的滑动窗口内确定与所述第一词语对应的第二词语,包括:
根据所述设定数据库存储的评价词语,将所述设定的滑动窗口内词语类型为评价词语的词语确定为所述第二词语。
在一实施例中,所述设定数据库还包括评价对象的第二信息与评价词语的第二信息,所述第二信息用于表征对应的词语能否独立表达评价观点;所述装置还包括:
第四确定单元,用于在所述至少一个第一词语组合中不存在第一词语组合对应的第一概率大于或等于设定阈值时,根据所述设定数据库的第二信息,将所述至少一个第一词语组合中符合设定条件的第一词语或第二词语确定为所述第一文本的信息抽取结果;所述第一设定条件表征词语能独立表达评价观点。
在一实施例中,所述装置还包括:
第五确定单元,用于在所述至少一个第一词语组合中每个第一词语组合的第一词语或第二词语均不符合所述设定条件的情况下,根据所述设定数据库存储的评价词语,将所述第一文本中词语类型为评价词语的词语确定为第三词语;
第二提取单元,用于根据所述设定数据库的第二信息,将符合所述设定条件的第三词语确定为所述第一文本的信息抽取结果。
实际应用时,第一提取单元601、第一确定单元602、第二提取单元603可由信息抽取装置中的处理器来实现。当然,处理器需要运行存储器中存储的程序来实现上述各程序模块的功能。
需要说明的是,上述图6实施例提供的信息抽取装置在进行信息抽取时,仅以上述各程序模块的划分进行举例说明,实际应用中,可以根据需要而将上述处理分配由不同的程序模块完成,即将装置的内部结构划分成不同的程序模块,以完成以上描述的全部或者部分处理。另外,上述实施例提供的信息抽取装置与信息抽取方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
基于上述程序模块的硬件实现,且为了实现本申请实施例的方法,本申请实施例还提供了一种电子设备,图7为本申请实施例电子设备的硬件组成结构示意图,如图7所示,电子设备包括:
通信接口1,能够与其它设备比如网络设备等进行信息交互;
处理器2,与通信接口1连接,以实现与其它设备进行信息交互,用于运行计算机程序时,执行上述一个或多个技术方案提供的信息抽取方法。而所述计算机程序存储在存储器3上。
当然,实际应用时,电子设备中的各个组件通过总线系统4耦合在一起。可理解,总线系统4用于实现这些组件之间的连接通信。总线系统4除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图7中将各种总线都标为总线系统4。
本申请实施例中的存储器3用于存储各种类型的数据以支持电子设备的操作。这些数据的示例包括:用于在电子设备上操作的任何计算机程序。
可以理解,存储器3可以是易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(ROM,Read Only Memory)、可编程只读存储器(PROM,Programmable Read-Only Memory)、可擦除可编程只读存储器(EPROM,Erasable Programmable Read-Only Memory)、电可擦除可编程只读存储器(EEPROM,Electrically Erasable Programmable Read-Only Memory)、磁性随机存取存储器(FRAM,ferromagnetic random access memory)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(CD-ROM,Compact Disc Read-Only Memory);磁表面存储器可以是磁盘存储器或磁带存储器。易失性存储器可以是随机存取存储器(RAM,Random AccessMemory),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(SRAM,Static Random Access Memory)、同步静态随机存取存储器(SSRAM,Synchronous Static Random Access Memory)、动态随机存取存储器(DRAM,Dynamic Random Access Memory)、同步动态随机存取存储器(SDRAM,SynchronousDynamic Random Access Memory)、双倍数据速率同步动态随机存取存储器(DDRSDRAM,Double Data Rate Synchronous Dynamic Random Access Memory)、增强型同步动态随机存取存储器(ESDRAM,Enhanced Synchronous Dynamic Random Access Memory)、同步连接动态随机存取存储器(SLDRAM,SyncLink Dynamic Random Access Memory)、直接内存总线随机存取存储器(DRRAM,Direct Rambus Random Access Memory)。本申请实施例描述的存储器3旨在包括但不限于这些和任意其它适合类型的存储器。
上述本申请实施例揭示的方法可以应用于处理器2中,或者由处理器2实现。处理器2可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器2中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器2可以是通用处理器、DSP,或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。处理器2可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本申请实施例所公开的方法的步骤,可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于存储介质中,该存储介质位于存储器3,处理器2读取存储器3中的程序,结合其硬件完成前述方法的步骤。
处理器2执行所述程序时实现本申请实施例的各个方法中的相应流程,为了简洁,在此不再赘述。
在示例性实施例中,本申请实施例还提供了一种存储介质,即计算机存储介质,具体为计算机可读存储介质,例如包括存储计算机程序的存储器3,上述计算机程序可由处理器2执行,以完成前述方法所述步骤。计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、Flash Memory、磁表面存储器、光盘、或CD-ROM等存储器。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置、终端和方法,可以通过其它的方式实现。以上所描述的设备实施例仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元,即可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本申请各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本申请上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台电子设备(可以是个人计算机、服务器、或者网络设备等)执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。

Claims (10)

1.一种信息抽取方法,其特征在于,包括:
从第一文本中提取至少一个第一词语组合;所述第一词语组合由第一词语与第二词语组成;所述第一词语表征所述第一文本中的评价对象;所述第二词语表征评价所述第一词语的评价词语;
根据设定数据库确定所述至少一个第一词语组合中每个第一词语组合对应的第一概率;所述设定数据库用于存储评价对象与评价词语的匹配概率;所述第一概率表征第一词语与第二词语的匹配概率;
将所述至少一个第一词语组合中第一概率大于或等于设定阈值的第一词语组合提取为所述第一文本的信息抽取结果;所述信息抽取结果表征所述第一文本的评价观点。
2.根据权利要求1所述的信息抽取方法,其特征在于,通过以下方式生成设定数据库:
基于至少一个第二文本,确定第一集合;所述第二文本为文本样本;所述第一集合为由所述至少一个第二文本中的所有评价对象和所有评价词语组成的集合;
对所述第一集合中的每个词语添加第一信息;所述第一信息用于表征词语的词语类型;所述词语类型包括评价对象或评价词语;
基于第一集合中每个词语的第一信息,确定第一集合中每个第二词语组合对应的匹配概率;所述第二词语组合由所述第一集合中的一个评价对象和一个评价词语组成。
3.根据权利要求1所述的信息抽取方法,其特征在于,所述设定数据库以哈希存储的方式将评价对象与评价词语的匹配概率进行存储。
4.根据权利要求1所述的信息抽取方法,其特征在于,所述从第一文本中提取第一词语组合,包括:
确定所述第一文本中的所述第一词语;
基于所述第一词语在所述第一文本中的位置,在设定长度的滑动窗口内确定与所述第一词语对应的第二词语。
5.根据权利要求4所述的信息抽取方法,其特征在于,所述确定所述第一文本中的所述第一词语,包括:
根据所述设定数据库存储的评价对象,将所述第一文本中词语类型为评价对象的词语确定为所述第一词语;
所述在设定的滑动窗口内确定与所述第一词语对应的第二词语,包括:
根据所述设定数据库存储的评价词语,将所述设定的滑动窗口内词语类型为评价词语的词语确定为所述第二词语。
6.根据权利要求1所述的信息抽取方法,其特征在于,所述设定数据库还包括评价对象的第二信息与评价词语的第二信息,所述第二信息用于表征对应的词语能否独立表达评价观点;所述方法还包括:
在所述至少一个第一词语组合中不存在第一词语组合对应的第一概率大于或等于设定阈值时,根据所述设定数据库的第二信息,将所述至少一个第一词语组合中符合设定条件的第一词语或第二词语确定为所述第一文本的信息抽取结果;所述第一设定条件表征词语能独立表达评价观点。
7.根据权利要求6所述的信息抽取方法,其特征在于,所述方法还包括:
在所述至少一个第一词语组合中每个第一词语组合的第一词语或第二词语均不符合所述设定条件的情况下,根据所述设定数据库存储的评价词语,将所述第一文本中词语类型为评价词语的词语确定为第三词语;
根据所述设定数据库的第二信息,将符合所述设定条件的第三词语确定为所述第一文本的信息抽取结果。
8.一种信息抽取装置,其特征在于,包括:
第一提取单元,从第一文本中提取至少一个第一词语组合;所述第一词语组合由第一词语与第二词语组成;所述第一词语表征所述第一文本中的评价对象;所述第二词语表征评价所述第一词语的评价词语;
第一确定单元,用于根据设定数据库确定所述至少一个第一词语组合中每个第一词语组合对应的第一概率;所述设定数据库用于存储评价对象与评价词语的匹配概率;所述第一概率表征第一词语与第二词语的匹配概率;
第二提取单元,用于将所述至少一个第一词语组合中第一概率大于或等于设定阈值的第一词语组合提取为所述第一文本的信息抽取结果;所述信息抽取结果表征所述第一文本的评价观点。
9.一种电子设备,其特征在于,包括:处理器和用于存储能够在处理器上运行的计算机程序的存储器,
其中,所述处理器用于运行所述计算机程序时,执行权利要求1至7任一项所述方法的步骤。
10.一种存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7任一项所述方法的步骤。
CN202110057358.8A 2021-01-15 2021-01-15 信息抽取方法、装置、电子设备及存储介质 Pending CN112732894A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110057358.8A CN112732894A (zh) 2021-01-15 2021-01-15 信息抽取方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110057358.8A CN112732894A (zh) 2021-01-15 2021-01-15 信息抽取方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN112732894A true CN112732894A (zh) 2021-04-30

Family

ID=75591783

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110057358.8A Pending CN112732894A (zh) 2021-01-15 2021-01-15 信息抽取方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN112732894A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107492008A (zh) * 2017-08-09 2017-12-19 阿里巴巴集团控股有限公司 信息推荐方法、装置、服务器及计算机存储介质
CN107729317A (zh) * 2017-10-13 2018-02-23 北京三快在线科技有限公司 评价标签的确定方法、装置及服务器
CN109117470A (zh) * 2017-06-22 2019-01-01 北京国双科技有限公司 一种评价文本信息的评价关系提取方法及装置
CN110738056A (zh) * 2018-07-03 2020-01-31 百度在线网络技术(北京)有限公司 用于生成信息的方法和装置
CN111144122A (zh) * 2018-10-16 2020-05-12 北京京东尚科信息技术有限公司 评价处理方法、装置和计算机系统及介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109117470A (zh) * 2017-06-22 2019-01-01 北京国双科技有限公司 一种评价文本信息的评价关系提取方法及装置
CN107492008A (zh) * 2017-08-09 2017-12-19 阿里巴巴集团控股有限公司 信息推荐方法、装置、服务器及计算机存储介质
CN107729317A (zh) * 2017-10-13 2018-02-23 北京三快在线科技有限公司 评价标签的确定方法、装置及服务器
CN110738056A (zh) * 2018-07-03 2020-01-31 百度在线网络技术(北京)有限公司 用于生成信息的方法和装置
CN111144122A (zh) * 2018-10-16 2020-05-12 北京京东尚科信息技术有限公司 评价处理方法、装置和计算机系统及介质

Similar Documents

Publication Publication Date Title
CN108595695B (zh) 数据处理方法、装置、计算机设备和存储介质
CN109635296B (zh) 新词挖掘方法、装置计算机设备和存储介质
CN108875059B (zh) 用于生成文档标签的方法、装置、电子设备和存储介质
CN114556328B (zh) 数据处理方法、装置、电子设备和存储介质
CN108959247B (zh) 一种数据处理方法、服务器及计算机可读介质
US11507743B2 (en) System and method for automatic key phrase extraction rule generation
CN110287405B (zh) 情感分析的方法、装置和存储介质
US20160188569A1 (en) Generating a Table of Contents for Unformatted Text
CN107861948B (zh) 一种标签提取方法、装置、设备和介质
CN109271641A (zh) 一种文本相似度计算方法、装置及电子设备
CN112905651A (zh) 信息推荐方法、装置、电子设备及存储介质
CN108875050B (zh) 面向文本的数字取证分析方法、装置和计算机可读介质
US9690797B2 (en) Digital information analysis system, digital information analysis method, and digital information analysis program
CN112818681B (zh) 文本情感分析方法、系统及电子设备
CN114202443A (zh) 政策分类方法、装置、设备及存储介质
CN114048288A (zh) 细粒度情感分析方法、系统、计算机设备和存储介质
CN110705282A (zh) 关键词提取方法、装置、存储介质及电子设备
CN111324725B (zh) 一种话题获取方法、终端、计算机可读存储介质
CN113010785A (zh) 用户推荐方法及设备
CN110705257B (zh) 媒体资源的识别方法、装置、存储介质及电子装置
CN109145115B (zh) 产品舆情发现方法、装置、计算机设备和存储介质
CN108763258B (zh) 文档主题参数提取方法、产品推荐方法、设备及存储介质
CN112732894A (zh) 信息抽取方法、装置、电子设备及存储介质
CN112182448A (zh) 页面信息处理方法、装置及设备
CN107609094B (zh) 数据消歧方法、装置及计算机设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination