CN113111661A - 文本信息分类方法、系统、设备及可读存储介质 - Google Patents

文本信息分类方法、系统、设备及可读存储介质 Download PDF

Info

Publication number
CN113111661A
CN113111661A CN202010020598.6A CN202010020598A CN113111661A CN 113111661 A CN113111661 A CN 113111661A CN 202010020598 A CN202010020598 A CN 202010020598A CN 113111661 A CN113111661 A CN 113111661A
Authority
CN
China
Prior art keywords
event
text information
classification
foreign
trigger
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010020598.6A
Other languages
English (en)
Inventor
胡殿明
刘雨亮
李强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ganyi Intelligent Technology Nanjing Co ltd
Tuling Artificial Intelligence Institute Nanjing Co ltd
Original Assignee
Ganyi Intelligent Technology Nanjing Co ltd
Tuling Artificial Intelligence Institute Nanjing Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ganyi Intelligent Technology Nanjing Co ltd, Tuling Artificial Intelligence Institute Nanjing Co ltd filed Critical Ganyi Intelligent Technology Nanjing Co ltd
Priority to CN202010020598.6A priority Critical patent/CN113111661A/zh
Publication of CN113111661A publication Critical patent/CN113111661A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本申请提供文本信息分类方法、系统、设备及可读存储介质,其文本信息分类方法包括:获取文本信息;从所述文本信息内包含外事关键信息的候选语句中匹配触发词以得到事件语句,其中,所述触发词包含于触发词词典;基于匹配结果,对所述文本信息进行外事事件分类;将分类的结果存入数据库中和/或将分类的结果予以显示。所述外事事件分类的类别包括:出访事件、来访事件、以及非外事事件。本申请可在有效降低分析外事事件难度的同时保证处理的效率和准确性。

Description

文本信息分类方法、系统、设备及可读存储介质
技术领域
本申请涉及移动通信技术领域,特别是涉及文本信息分类方法、系统、设备及可读存储介质。
背景技术
通常外事事件文本具有较高的复杂性,目前的文本处理技术无法有效识别外事事件文本中的关键信息并将其分类,不利于外事事件的高效分析。
在现有方案中,针对文本信息分类多采用人工识别或机器学习的方式。其中,人工识别的方式通常效率低下,且人力成本高,耗时耗力,不具有实时处理大规模文本的能力;而机器学习虽能实时处理大规模文本,但其依赖于大量的样本训练,存在较严重的数据稀疏问题,准确度低。
因此,如何在有效降低分析外事事件难度的同时保证处理的效率和准确性已成为本领域技术人员以期解决的技术问题。
发明内容
鉴于以上所述现有技术的缺点,本申请的目的在于提供文本信息分类方法、系统、设备及可读存储介质,用于解决现有技术中如何在有效降低分析外事事件难度的同时保证处理的效率和准确性的问题。
为实现上述目的及其他相关目的,本申请的第一方面提供一种文本信息分类方法,包括以下步骤:获取文本信息;从所述文本信息内包含外事关键信息的候选语句中匹配触发词以得到事件语句;其中,所述触发词包含于触发词词典;基于匹配结果,对所述文本信息进行外事事件分类;所述外事事件分类的类别包括:出访事件、来访事件、以及非外事事件;将分类的结果存入数据库中和/或将分类的结果予以显示。
在本申请的第一方面的某些实施方式中,所述基于匹配结果,对所述文本信息进行分类的步骤包括:若匹配成功且所述触发词属于能直接进行外事事件分类的第一分类类型,则将所述文本信息确定为与所述第一分类类型预先关联的出访事件或来访事件分类;若匹配成功且所述触发词属于能间接进行外事事件分类的第二分类类型,则对所述事件语句进行句法分析以得到所述事件语句中各词汇之间的句法关系,并根据由所述句法关系和提取自事件语句的各角色实体对象得到的相关于所述触发词的语法特征、该触发词的语义、所述各角色实体对象所关联的国别属性、以及提取自所述事件语句的事件发生地点及其所关联的国别属性,对所述文本信息进行出访事件或来访事件分类;若匹配失败或所述触发词属于不能通过触发词词典进行外事事件分类的第三分类类型,对所述事件语句进行句法分析以得到所述事件语句中的动词以及各词汇之间的句法关系,并根据所述动词的语义、以及所述各词汇之间的句法关系对所述文本信息进行出访事件或来访事件分类。
在本申请的第一方面的某些实施方式中,所述角色实体对象是由所述事件语句中属于同一角色的实体名称整合形成的。
在本申请的第一方面的某些实施方式中,所述每一事件语句中的各词汇对应有实体名称,所述实体名称包括:姓名、职位、组织机构和/或公司、以及地点。
在本申请的第一方面的某些实施方式中,所述整合的步骤包括:以角色名称、连词或介词为切分点,对所述事件语句进行切分;将切分后的事件语句中属于同一角色的实体名称整合以形成每一角色的角色实体对象。
在本申请的第一方面的某些实施方式中,所述根据由所述句法关系和提取自事件语句的各角色实体对象得到的相关于所述触发词的语法特征、该触发词的语义、所述各角色实体对象所关联的国别属性、以及提取自所述事件语句的事件发生地点及其所关联的国别属性,对所述文本信息进行出访事件或来访事件分类的步骤包括:根据所述触发词的语义,判断与该触发词在语法特征上相关的各相关角色实体对象相对于所述触发词的执行身份;所述执行身份包括:访问方及被访问方;根据各所述角色实体对象的执行身份及其国别属性、以及事件发生地点及其国别属性,以确定访问方或被访问方同事件发生地点间的国别属性的异同,据以进行外事事件分类。
在本申请的第一方面的某些实施方式中,所述根据对所述事件语句进行句法分析以得到所述事件语句中的动词以及各词汇之间的句法关系,并根据所述动词的语义、以及所述各词汇之间的句法关系对所述文本信息进行出访事件或来访事件分类的步骤包括:利用依存句法分析对所述事件语句进行句法解析,以确定事件语句中的动词及其子节点,并根据子节点和动词间的句法关系确定子节点为外事事件的施事方或受事方;根据所述动词的词义、及该施事方和受事方对所述文本信息进行外事事件分类,以分类至外事事件分类还包括的其它事件分类中。
在本申请的第一方面的某些实施方式中,所述从所述文本信息内包含外事关键信息的候选语句中匹配触发词以得到事件语句的步骤包括:对所述文本信息进行分句处理以通过模式匹配判断每一分句是否包含关键信息,并将包含关键信息的分句确定为候选语句;依据所述触发词词典,从所述候选语句中匹配触发词以得到包含触发词的候选语句,并将包含触发词的候选语句确定为事件语句。
在本申请的第一方面的某些实施方式中,所述外事关键信息包括:时间信息、角色信息、及地点信息。
在本申请的第一方面的某些实施方式中,所述获取的文本信息是经过预处理的。
在本申请的第一方面的某些实施方式中,所述将分类的结果存入数据库中和/或将分类的结果予以显示的步骤包括:将每一分类结果对应于相应的分类类别颜色并予以显示,或者将每一分类结果对应于相应的分类类别栏目并予以显示。
在本申请的第一方面的某些实施方式中,还包括基于匹配结果,对所述事件语句进行句法分析以得到所述事件语句中各词汇之间的句法关系,并至少根据所述各词汇之间的句法关系、以及所述触发词的语义提取所述事件语句中的要素。
在本申请的第一方面的某些实施方式中,还包括根据预设的要素类型,将提取的要素与所述要素类型相匹配,并将匹配的要素类型存入数据库和/或将匹配的要素类型予以显示。
本申请的第二方面还提供一种触发词词典构建方法,包括以下步骤:获取相关于外事事件的至少一文本信息;对所述至少一文本信息进行统计分析,以得到所述至少一文本信息中出现词频高于预设值的关键词;构建与每个所述关键词的语义相关的触发词分类类型,且由每种触发词分类类型对应的触发词集合构成触发词词典;其中,所述触发词分类类型包括第一分类类型、第二分类类型、以及第三分类类型。
在本申请的第二方面的某些实施方式中,所述第一分类类型包括出访事件和来访事件。
本申请的第三方面还提供一种文本信息分类系统,包括:通信单元,用以获取文本信息;处理单元,用以从所述文本信息内包含外事关键信息的候选语句中匹配触发词以得到事件语句;其中,所述触发词包含于触发词词典;以及,用以基于匹配结果,对所述文本信息进行外事事件分类;所述外事事件分类的类别包括:出访事件、来访事件、以及非外事事件;存储单元和/或显示单元,用以将分类的结果存入数据库中和/或将分类的结果予以显示。
在本申请的第三方面的某些实施方式中,所述处理单元基于匹配结果对所述文本信息进行外事事件分类中包括:若匹配成功且所述触发词属于能直接进行外事事件分类的第一分类类型,则将所述文本信息确定为与所述第一分类类型预先关联的出访事件或来访事件分类;若匹配成功且所述触发词属于能间接进行外事事件分类的第二分类类型,则对所述事件语句进行句法分析以得到所述事件语句中各词汇之间的句法关系,并根据由所述句法关系和提取自事件语句的各角色实体对象得到的相关于所述触发词的语法特征、该触发词的语义、所述各角色实体对象所关联的国别属性、以及提取自所述事件语句的事件发生地点及其所关联的国别属性,对所述文本信息进行出访事件或来访事件分类;若匹配失败或所述触发词属于不能通过触发词词典进行外事事件分类的第三分类类型,对所述事件语句进行句法分析以得到所述事件语句中的动词以及各词汇之间的句法关系,并根据所述动词的语义、以及所述各词汇之间的句法关系对所述文本信息进行出访事件或来访事件分类。
在本申请的第三方面的某些实施方式中,所述角色实体对象是由所述事件语句中属于同一角色的实体名称整合形成的。
在本申请的第三方面的某些实施方式中,所述每一事件语句中的各词汇对应有实体名称,所述实体名称包括:姓名、职位、组织机构和/或公司、以及地点。
在本申请的第三方面的某些实施方式中,所述整合的步骤包括:以角色名称、连词或介词为切分点,对所述事件语句进行切分;将切分后的事件语句中属于同一角色的实体名称整合以形成每一角色的角色实体对象。
在本申请的第三方面的某些实施方式中,所述根据由所述句法关系和提取自事件语句的各角色实体对象得到的相关于所述触发词的语法特征、该触发词的语义、所述各角色实体对象所关联的国别属性、以及提取自所述事件语句的事件发生地点及其所关联的国别属性,对所述文本信息进行出访事件或来访事件分类的步骤包括:根据所述触发词的语义,判断与该触发词在语法特征上相关的各相关角色实体对象相对于所述触发词的执行身份;所述执行身份包括:访问方及被访问方;根据各所述角色实体对象的执行身份及其国别属性、以及事件发生地点及其国别属性,以确定访问方或被访问方同事件发生地点间的国别属性的异同,据以进行外事事件分类。
在本申请的第三方面的某些实施方式中,所述根据对所述事件语句进行句法分析以得到所述事件语句中的动词以及各词汇之间的句法关系,并根据所述动词的语义、以及所述各词汇之间的句法关系对所述文本信息进行出访事件或来访事件分类的步骤包括:利用依存句法分析对所述事件语句进行句法解析,以确定事件语句中的动词及其子节点,并根据子节点和动词间的句法关系确定子节点为外事事件的施事方或受事方;根据所述动词的词义、及该施事方和受事方对所述文本信息进行外事事件分类,以分类至外事事件分类还包括的其它事件分类中。
在本申请的第三方面的某些实施方式中,所述从所述文本信息内包含外事关键信息的候选语句中匹配触发词以得到事件语句的步骤包括:对所述文本信息进行分句处理以通过模式匹配判断每一分句是否包含关键信息,并将包含关键信息的分句确定为候选语句;依据所述触发词词典,从所述候选语句中匹配触发词以得到包含触发词的候选语句,并将包含触发词的候选语句确定为事件语句。
在本申请的第三方面的某些实施方式中,所述外事关键信息包括:时间信息、角色信息、及地点信息。
在本申请的第三方面的某些实施方式中,还包括预处理单元,用以对所述获取的文本信息进行预处理。
在本申请的第三方面的某些实施方式中,所述将分类的结果存入数据库中和/或将分类的结果予以显示的步骤包括:将每一分类结果对应于相应的分类类别颜色并予以显示,或者将每一分类结果对应于相应的分类类别栏目并予以显示。
在本申请的第三方面的某些实施方式中,所述处理单元还包括基于匹配结果,对所述事件语句进行句法分析以得到所述事件语句中各词汇之间的句法关系,并至少根据所述各词汇之间的句法关系、以及所述触发词的语义提取所述事件语句中的要素。
在本申请的第三方面的某些实施方式中,所述处理单元还包括根据预设的要素类型,将提取的要素与所述要素类型相匹配,并将匹配的要素类型存入数据库和/或将匹配的要素类型予以显示。
本申请的第四方面还提供一种服务端,包括:接口单元,用于与一计算机设备进行数据通信;其中,所述计算机设备用以存储文本信息;存储单元,用于存储至少一个程序;以及处理单元,用于调用所述至少一个程序以协调所述接口单元和存储单元执行如本申请第一方面的实施方式中任一所述的文本信息分类方法。
本申请的第五方面还提供一种客户端,包括:展示界面,用以展示文本信息的分类结果;接口单元,用于与一服务端进行数据通信以接收所述服务端提供的分类结果;其中,所述分类结果是基于如本申请第一方面的实施方式中任一所述的文本信息分类方法所得到的。
本申请的第六方面还提供一种计算机系统,包括:一或多个存储器,用于存储至少一程序;一或多个处理器,用于调用所述至少一程序,以执行本申请第一方面的实施方式中任一项所述的文本信息分类方法。
本申请的第七方面还提供一种计算机可读存储介质,存储有至少一程序,所述至少一程序在被调用时执行并实现如本申请第一方面的实施方式中任一项所述的文本信息分类方法。
如上所述,本申请的文本信息分类方法、系统、设备及介质,具有以下有益效果:
本申请一方面通过对外事事件中的出现词频高于预设值的关键词进行统计分析并根据词义分类,构建外事事件的触发词词典,从而利于外事事件文本信息的分类。另一方面,本申请通过在文本信息中匹配外事事件触发词词典中的关键词,并依据不同类型的外事活动设计匹配模式,根据触发词的词义、文本信息中语句的句法规则等对文本信息进行分类。并且在此过程中,通过句法分析等方式简化句型结构,去除冗余信息,保证了分类结果的高效性和准确性,有效解决了现有技术中对外事事件分类困难的技术问题。
附图说明
图1显示为本申请中的文本信息分类方法在一实施方式中的示意图。
图2显示为本申请中从文本信息内包含外事关键信息的候选语句中匹配触发词以得到事件语句的步骤在一实施方式中的示意图。
图3显示为本申请中基于匹配结果对所述文本信息进行外事事件分类的步骤在一实施方式中的示意图。
图4显示为本申请中的文本信息分类系统在一实施方式中的结构示意图。
图5显示为本申请中计算机系统的结构示意图。
图6显示为一种服务端的结构示意图。
图7显示为一种客户端的结构示意图。
具体实施方式
以下由特定的具体实施例说明本申请的实施方式,熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本申请的其他优点及功效。
在下述描述中,虽然在一些实例中术语第一、第二等在本文中用来描述各种类型,但是这些元件不应当被这些术语限制。这些术语仅用来将一个类型与另一个类型进行区分。例如,第一分类类型可以被称作第二分类类型,并且类似地,第二分类类型可以被称作第一分类类型,而不脱离各种所描述的实施例的范围。第一分类类型和分类类型均是在描述一个类型,但是除非上下文以其他方式明确指出,否则它们不是同一个分类类型。
再者,如同在本文中所使用的,单数形式“一”、“一个”和“该”旨在也包括复数形式,除非上下文中有相反的指示。应当进一步理解,术语“包含”、“包括”表明存在所述的特征、步骤、操作、元件、组件、项目、种类、和/或组,但不排除一个或多个其他特征、步骤、操作、元件、组件、项目、种类、和/或组的存在、出现或添加。此处使用的术语“或”和“和/或”被解释为包括性的,或意味着任一个或任何组合。因此,“A、B或C”或者“A、B和/或C”意味着“以下任一个:A;B;C;A和B;A和C;B和C;A、B和C”。仅当元件、功能、步骤或操作的组合在某些方式下内在地互相排斥时,才会出现该定义的例外。
如背景技术中所述,基于关键词提取而对文本信息分类,但是由于外事事件相对于普通事件而言更为复杂,难以仅通过关键词的词义或分类来判断外事事件的性质从而对外事事件进行分类,从而导致分类准确度低、效率低下等问题。
在一些实施方式中,目前对于文本信息分类所采用的方式中,人工识别的方式通常效率低下,且人力成本高,耗时耗力;机器学习虽能实时处理大规模文本,但其依赖于大量的样本训练,存在较严重的数据稀疏问题,准确度低。
有鉴于此,本申请实施例中可以提供一种文本信息分类方法,通过利用外事事件触发词词典对文本信息中包含外事关键信息的语句中匹配触发词,并根据触发词的类型对文本信息分类处理分析,从而高效、准确地对文本信息进行外事事件分类。
所述文本信息分类方法可由计算机系统来执行,所述计算机系统通过其硬件和软件的结合来实现。
所述计算机系统至少包括:一个或多个存储器、一个或多个处理器、I/O接口、网络接口和输入结构等。
其中,所述存储器包含程序。所述存储器的类型包括:高速随机存取存储器,并且还可包括非易失性存储器,例如一个或多个磁盘存储设备、闪存设备或其他非易失性固态存储设备。
在某些实施例中,存储器还可以包括远离所述一个或多个处理器的存储器,例如经由RF电路或外部端口以及通信网络访问的网络附加存储器,其中所述通信网络可以是因特网、一个或多个内部网、局域网(LAN)、广域网(WLAN)、存储局域网(SAN)等,或其适当组合。存储器的控制器可以控制设备的诸如CPU和外设接口之类的其他组件对存储器的访问。
所述一个或多个处理器可操作地与网络接口耦接,以将计算设备以通信方式耦接至网络。例如,网络接口可将计算设备连接到局域网(如LAN)、和/或广域网(如WAN)。处理器还与I/O端口和输入结构可操作地耦接,该I/O端口可使得计算设备能够与各种其他电子设备进行交互,该输入结构可使得用户能够与计算设备进行交互。可选的,所述输入结构可包括按钮、键盘、鼠标、触控板等。此外可选的,电子显示器可包括触摸部件,该触摸部件通过检测对象触摸其屏幕的发生和/或位置来促进用户输入。
所述文本信息为通过文字描述的事件信息,其包括但不限于新闻、文章等。该文本信息的来源可以是计算机网络,例如通过互联网访问网页,而从网页提取该文本信息;或者,该文本信息的来源也可以是由网络中的某端或本地端编辑生成的文本文件;或者,该文本信息的来源也可以是由网络中的某端或本地端的文本数据库。
本申请的方案是对文本信息进行外事事件分类,即判断该文本信息中是否包含外事事件信息。在此,将不包含外事事件信息的文本信息定义为非外事事件,将包含外事事件信息的文本信息定义为外事事件,并进一步在外事事件中分类出访事件或来访事件。由此,定义所述外事事件的分类类别包括:出访事件、来访事件、以及非外事事件。
在一些实施例中,所述文本信息为中文信息,则在后续进行外事事件时,可依靠中文特点的语义及句法进行分析;而在其它的实施例中,若所述文本信息为外文,例如英文、法文、日文、德文等等,则根据相应语言特点的语义及句法进行分析。
在一个示例性的实施例中,请参阅图1,其显示为本申请中的文本信息分类方法在一实施方式中的示意图。其中,在可能的实现方式中,所述文本信息分类方法可由前述实施例中的计算机设备的一个或多个处理器调取存储器中的至少一个程序来执行。
在步骤S110中,获取文本信息。
在可能的示例中,可以直接以数据流形式接收以获取文本信息;也可以是从txt、doc、docx、pdf等格式的文档读取文字以获取文本信息。其中,所述文本信息可以以篇为单位,即每条文本信息可以包含一篇文章或一篇文章的部分内容,这是由于每篇文章所描述的事件可能是不同的;则相应的,每条文本信息可以仅包括正文内容;也可以是除正文以外,还包括标题、摘要等内容。当然,每条文本信息也可以包含多篇文章,而可以通过每条文本信息中的不通篇文章间的区隔特征(例如标题、结尾的标点符号、文本内容和/或格式特征等);所述“条”指的是每个独立单位的文本信息,可能是来自不同抓取时机或不同文件的。
在可能的示例中,所述文本信息可通过事件数据库获取或通过网页提取获得。例如,在一事件数据库中包含有大量文本信息,可通过与该事件数据库通信以获得文本信息;又如,可通过网页数据提取的方式对政府、学校、企业、媒体等机构公开网站的文本信息进行读取,从而获得文本信息。
在一些实施方式中,为保证效率,可直接对政府、学校、企业、媒体等机构网站中外事板块的文本信息进行读取。
在一个示例性的实施例中,所述获取的文本信息是经过预处理的。
应当理解,所获取的原始文本信息可能包含一些冗余数据,例如页面标签、非法字符等,因此在一些实施方式中,在预处理阶段,可对这些冗余数据进行清理,以提高文本信息分类效率。在还有一些实施方式中,所述预处理步骤还包括为每一原始文本信息创建索引,以便后续的数据操作。
在可能的实施方式中,所述创建索引包括为每一原始文本信息创建一唯一对应的ID序列号并存储于数据库中,该ID序列号与原始文本信息的唯一映射关系可为数据库的操作提供便利。例如,在数据库检索的过程中,可通过索引检索到对应的文本信息以对其进行相关操作;又如,在数据库更新的过程中,通过索引可方便对原数据库进行添加或删改操作等。
在步骤S120中,从所述文本信息内包含外事关键信息的候选语句中匹配触发词以得到事件语句。其中,所述触发词包含于触发词词典。
在一实施例中,首先确定所述文本信息内包含外事关键信息的候选语句。
在可能的实现方式中,请参阅图2,其显示为本申请一实施例中从文本信息内包含外事关键信息的候选语句中匹配触发词以得到事件语句的步骤的示意图。
在步骤S1201中,对所述文本信息进行分句处理以通过模式匹配判断每一分句是否包含关键信息,并将包含关键信息的分句确定为候选语句。
可选的,可以将文本信息分句处理以切分成若干分句。所述分句处理的方式包括但不限于为:按照标点符号分句,或者按照段落分句等。
进而,通过判断每一分句中是否包含外事关键信息,从而将包含有外事关键信息的分句定义为候选语句;其中,可选的,所述外事关键信息包括:时间信息、角色信息、及地点信息;
其中,所述时间信息举例包括:事件的发生时间、事件的结束时间等;所述角色信息举例包括:人物的姓名、组织机构的名称、公司的名称、人物职位等;所述地点信息举例包括:事件发生地点、人物所属地点(国籍)、组织机构或公司所属地点等。
在一些实施方式中,可将同时包括时间信息、角色信息、以及地点信息的分句确定为候选分句;在还有一些实施方式中,还可将包括时间信息、角色信息、以及地点信息中其一或其二的分句确定为候选语句。例如,可优先将同时包括时间信息、角色信息、以及地点信息的分句确定为候选分句,当文本信息中不存在同时包括时间信息、角色信息、以及地点信息的分句时,可进一步将包括时间信息、角色信息、以及地点信息中其二或其一的分句确定为候选分句,直到候选分句成功确定为止。
另外,若所述文本信息中的每个分句中均不存在任一外事关键信息,则可直接将该文本信息分类为非外事事件。
在实际情况中,所述文本信息中可能包含多个具有外事关键信息的分句即候选语句,则在一些实施方式中,可挑选包含外事关键信息最多的候选语句以执行下一步骤即匹配触发词的操作;或者在另一些实施方式中,可分别对每一候选语句执行下一步骤即匹配触发词的操作。
在步骤S1202中,依据所述触发词词典,从所述候选语句中匹配触发词以得到包含触发词的候选语句,并将包含触发词的候选语句确定为事件语句。
在此,在确定了候选语句后,根据预先构建的触发词词典,从包含关键信息的候选语句中匹配触发词词典中的触发词,并将匹配成功的分句确定为事件语句。
在此,依据外事事件的特点,在可能的实现方式中,所述触发词包括但不限于:出访、赴、来访、莅临、访问、参观、到访、会见、接待、邀请、出席、举行、主持、参加等。
应当理解,由于不同的触发词可能对应于不同的外事事件分类,为提高文本信息的分类效率,在此根据触发词的词义将所述触发词分为第一分类类型和第二分类类型。其中,所述第一分类类型为可依据所述触发词的词义对所述文本信息直接进行分类的类型,所述第一分类类型包括:出访事件和来访事件。属于所述出访事件的触发词包括但不限于为:出访、赴等,通过此类触发词的词义及语法特点,可以直接确定具有该触发词的文本信息为出访的外事事件;属于所述来访事件的触发词包括但不限于例如:来访、莅临等,通过此类触发词的词义及语法特点,可以直接确定具有该触发词的文本信息为来访的外事事件。
所述第二分类类型为依据所述触发词的词义无法直接对所述文本信息进行分类的类型,所述第二分类类型包括不明事件,属于所述不明事件的触发词包括但不限于例如:访问、参观、到访、会见、接待、邀请、出席、举行、主持、参加等,此类触发词无法直接确定所述文本信息为来访事件或出访事件,因此还需对包含此类触发词的文本信息进一步地分析以确定该文本信息的分类类型。
在步骤S130中,基于匹配结果,对所述文本信息进行外事事件分类。
在此,根据S120中在所述候选语句中匹配触发词的匹配结果,对所述文本信息进行出访、来访或非外事事件的分类。其中,所述匹配结果包括匹配成功与匹配失败。所述匹配成功表示在所述候选语句中具有所述触发词词典中的触发词,所述匹配失败表示在所述候选语句中不具有所述触发词词典中的触发词。
进一步地,当匹配成功时,还继续判断所匹配的触发词属于第一分类类型、第二分类类型或第三分类类型。由此,依据不同的匹配结果对所述文本信息进行外事事件分类。并且,基于上述说明可以得出所述不同的匹配结果包括四种类型:匹配成功且所匹配的触发词属于第一分类类型、匹配成功且所匹配的触发词属于第二分类类型、匹配成功且所匹配的触发词属于第三分类类型、以及匹配失败,以下将对该四种不同类型的匹配结果进行分别说明。
在一个示例性的实施例中,若匹配成功且所述触发词属于能直接进行外事事件分类的第一分类类型,则将所述文本信息确定为与所述第一分类类型预先关联的出访事件或来访事件分类。
在此,所述第一分类类型中的出访事件或来访事件与所述文本信息分类中的出访事件与来访事件相关联且对应,即:当所述文本信息中的候选语句中具有第一分类类型中的触发词时,可直接将该文本信息归类为出访事件或来访事件。具体地说,当所述文本信息中的候选语句中具有“出访”、“赴”等属于出访事件类型的触发词时,可将该文本信息确定为出访事件;当所述文本信息中的候选语句中具有来访、莅临等属于来访事件类型的触发词时,可将该文本信息确定为来访事件。
在一个示例性的实施例中,若匹配成功且所述触发词属于能间接进行外事事件分类的第二分类类型,则对所述事件语句进行句法分析以得到所述事件语句中各词汇之间的句法关系,并根据由所述句法关系和提取自事件语句的各角色实体对象得到的相关于所述触发词的语法特征、该触发词的语义、所述各角色实体对象所关联的国别属性、以及提取自所述事件语句的事件发生地点及其所关联的国别属性,对所述文本信息进行出访事件或来访事件分类。
在此,若匹配成功且匹配的触发词属于第二分类类型,即无法直接根据所述触发词的词义判断所述文本信息的分类,则可对所述事件语句进行句法分析,从而得到事件语句中各词汇之间的句法关系。其中,所述各词汇之间的句法关系包括但不限于:各词汇相对于分句的结构,以及各词汇之间的依存关系。其中,所述各词汇相对于分句的结构举例包括:主谓宾结构、定/状/补语结构等;所述各词汇之间的依存关系举例包括主谓关系、动宾关系、定中关系等。所述句法分析的方法包括但不限于:句法结构分析、依存句法解析等。
在一些实施方式中,在对所述事件语句进行句法分析后,可以以触发词为核心构建所述事件语句的句法解析树,从而便于利用触发词的词义对所述文本信息进行分类。
在一个示例性的实施例中,所述每一事件语句中的各词汇对应有实体名称。
其中,实体名称的类型数量可根据实际需要来确定,在一些实施方式中,所述实体名称的类型数量包括26类,还有些实施方式中拓展到40类。在本实施例中,根据本实施例中的需要,所述实体名称包括但不限于:日期(TIME)、姓名(NAME)、职位(JOB)、组织机构(ORG)和/或公司(COMPANY)、以及地点(LOCATION)等。
在此,可以对事件语句进行序列标注,从而对事件语句中的各词汇进行对应实体名称的标记。
在一个示例性的实施例中,可采用BIO标注模式进行序列标注。应当理解,在BIO标注模式中,将每个字符标注为“B-X”、“I-X”或者“O”。其中,“B-X”表示此元素所在的片段属于X类型并且此元素在此片段的开头,“I-X”表示此元素所在的片段属于X类型并且此元素在此片段的中间位置,“O”表示不属于任何类型,X代表各实体名称。例如,在事件语句“4月1日,甲大学校长张三和副校长李四在甲市会见来自英国霍格沃兹大学的邓布利多校长一行。”中,假设甲大学是位于甲市的大学,且甲市属于国内城市,“英国霍格沃兹大学”为整个组织机构的名称,则“英国”中的两个字符可分别被标记为“B-地点I-地点”,“霍格沃兹大学”中的6个字符可分别被标记为“B-组织机构I-组织机构I-组织机构I-组织机构I-组织机构I-组织机构”,“甲市”中的两个字符可分别被标记为“B-地点I-地点”,“在”可被标记为“O”。
在一些实施例中,可以将所述事件语句中属于同一角色的实体名称整合形成角色实体对象,即所述角色实体对象用以表征属于同一角色的特征,所述特征由该角色相关的各个实体名称来表示。
由此,在对语句进行分析时,可将属于同一角色的实体名称整合为一角色实体对象,进而简化事件语句的结构,降低语句复杂度。在一些实施方式中,所述角色可以解释为人物,例如,将属于同一人物的实体名称整合形成角色实体对象,如“甲大学-校长-张三”,其中“甲大学”、“校长”、“张三”都是同一角色“张三”的实体名称;在还有一些实施方式中,所述角色可以解释为组织机构或公司,例如将属于同一组织机构的实体名称整合成角色实体对象,或将属于同一公司的实体名称整合成角色实体对象。
在此,在确定了所述事件语句中的各实体名称后,再借由上述句法分析中得到的句法关系,即可确定每一实体名称相关于所述触发词的语法特征。在一些示例中,所述语法特征包括各实体名称与所述触发词之间的主谓关系、动宾关系、定中关系等语法关系。
在一个示例性的实施例中,在确定每个角色实体对象时,可以以角色名称、连词或介词为切分点,对所述事件语句进行切分;进而,将切分后的事件语句中属于同一角色的实体名称整合以形成每一角色的角色实体对象。
继续以“4月1日,甲大学校长张三和副校长李四在甲市会见来自英国霍格沃兹大学的邓布利多校长一行。”为例,可将该事件语句切分为:4月1日(TIME),/甲大学(ORG)校长(JOB)张三(NAME)/和/副校长(JOB)李四(NAME)/在甲市(LOCATION)/会见/来自英国霍格沃兹大学(ORG)的邓布利多(NAME)校长(JOB)一行。
在对事件语句进行切分后,将属于同一角色的实体名称进行整合以形成每一角色的角色实体对象。在本实施例中,根据所述事件语句中的句法关系以及实体名称的含义将属于同一人物的实体名称整合形成角色实体对象。继续上一段中的例子,将属于同一角色的实体名称进行整合以形成以下角色实体对象:
{"person":[{"job":"校长","org":"甲大学","company":null,"location":"甲市","name":"张三"}]}
{"person":[{"job":"副校长","org":"甲大学","company":null,"location":"甲市","name":"李四"}]}
{"person":[{"job":"校长","org":"英国霍格沃兹大学","company":null,"location":null,"name":"邓布利多"}]}。
在一个示例性的实施例中,在明确了事件语句中的各个角色实体对象,以及各个角色实体对象和触发词之间的句法关系后,则可以根据所述触发词的语义,判断与该触发词在语法特征上相关的各相关角色实体对象相对于所述触发词的执行身份;所述执行身份包括:访问方及被访问方,并根据各所述角色实体对象的执行身份及其国别属性、以及事件发生地点及其国别属性,以确定访问方或被访问方同事件发生地点间的国别属性的异同,据以进行外事事件分类。
简单而言,对于第二分类类型的触发词,虽然无法直接得到其属于出访或来访事件,但是,根据与其相关的角色实体对象相对于触发词(由触发词语义和语法特征确定)的执行身份,角色实体对象的国别属性,事件发生地点及其国别属性就能推断出是国内角色。
当然,所述执行身份还可包括:外事事件的施事方和受事方。
可选的,为了精确获得这些信息,可对所述事件语句进一步简化,以减少对文本信息进行外事事件分类的复杂度。
在一些实施方式中,先对所述事件语句中的冗余信息进行去除,使所述事件语句中仅包括触发词与各相关角色实体对象,并以主语、谓语、宾语的顺序表现。其中,所述冗余信息为在实体名称整合成角色实体对象过程中无关或相关度低的信息,其包括但不限于为:日期、标点符号、地点等信息。所述主语和宾语均为角色实体对象,谓语为触发词,且将主语定义为施事方、宾语定义为受事方。例如,某事件语句中包括A和B两个不同的角色实体对象,且在原事件语句中A在触发词之前、B在触发词之后,则该事件语句可形成“A触发词B”的形式,且A为相对于触发词的施事方、B为相对于触发词的受事方。
在一些实施方式中,可进一步将属于第二分类类型的触发词进行细分,以对各相关角色实体对象进行执行身份的判断,所述执行身份包括:访问方或被访问方。在此,将第二分类类型的触发词依据语义进一步细分类型为:施事方为访问方且受事方为被访问方的类型(Ⅱ-Ⅰ类型)、以及施事方为被访问方且受事方为访问方的类型(Ⅱ-Ⅱ类型)。在此,所述Ⅱ-Ⅰ类型的触发词举例包括但不限于:访问、参观、到访等;所述Ⅱ-Ⅱ类型的触发词举例包括但不限于:会见、接待、邀请等。由此通过触发词在第二分类类型中的细分类型对各相关角色实体对象进行执行身份的判断。
在一些实施方式中,可通过事件语句中的地点实体名称类型来判断事件发生地点,该事件发生地点及每一角色实体对象均具有国别属性,所述国别属性即角色实体对象、事件发生地点所在的国家。所述国别属性可以通过角色实体对象中的组织机构、公司以及地点等实体名称来判断。所述判断的方式包括但不限于通过预设的模式匹配方法,通过匹配预设的国内外地点名词词典,对角色实体对象的国别属性进行判断。另外,在一些实施例中,所述国别属性既可以通过具体的国家类型例如“美国”、“英国”、“中国”来表示,也可以通过相比于某国的内、外属性来表示,例如相对“中国”的“国内”或“国外”。
当触发词属于Ⅱ-Ⅰ类型或Ⅱ-Ⅱ类型时,若访问方为国内方,事件发生地属于国外,则该文本信息分类为出访事件;若访问方为国外方,事件发生地属于国内,则该文本信息分类为来访事件。应当理解,在外事事件中,根据语言表达习惯,一般不会存在访问方为国内方且事件发生地也属于国内、或者访问方为国外方且事件发生地属于国外的情况发生,当然并非以此为限,即本申请的上述方案并不受到违反此语言表达习惯的表述的限制。
需说明的是,如果不考虑语言表达中存在的主动、被动语态,而考虑实际在外事新闻的语言表达习惯中仅使用主动语态,则根据上述Ⅱ-Ⅰ类型或Ⅱ-Ⅱ类型进行外事事件分类时,也可以不需要确定施事方和受事方,而仅依据访问方和被访问方同事件发生地点间国别属性的异同即可进行外事事件分类(即分为来访事件或出访事件)。
以下将通过一具体示例进行说明,应当理解,该示例仅用于解释本申请的实施方式而非对本申请实施方式的限制。
在此,假设原事件语句为:“4月1日,甲大学校长张三和副校长李四在甲市会见来自英国霍格沃兹大学的邓布利多校长一行。”,甲大学是位于中国甲市的大学,甲市属于中国国内城市。在该事件语句中,“4月1日”、“在甲市”都不与张三、李四及邓布利多所在的角色实体对象有关,因此可在分析角色实体对象时将“4月1日”、“在甲市”去除。去除冗余信息后的事件语句变为“甲大学校长张三和副校长李四会见来自英国霍格沃兹大学的邓布利多校长一行”。在此,将属于同一组织机构的实体名称整合成角色实体对象,则以触发词为谓语,其主语的第一角色实体对象表示为:“甲大学校长张三和副校长李四”,其谓语的第二角色实体对象表示为:“来自英国霍格沃兹大学的邓布利多校长一行”。
根据触发词“会见”的词义,可将其归类为施事方为被访问方且受事方为访问方的类型(Ⅱ-Ⅱ类型),因此,第一角色实体对象为该事件的施事方且为被访问方,第二角色实体对象为该事件的受事方且为访问方。
简单来讲,即确定“甲大学校长张三和副校长李四”为被访问方,“来自英国霍格沃兹大学的邓布利多校长一行”为访问方。
根据第一角色实体对象中的组织机构实体名称“甲大学”可知第一角色实体对象的国别属性为国内方,根据第二角色实体对象中的组织机构实体名称“英国霍格沃兹大学”可知该第二角色实体对象的国别属性为国外方。并且,根据事件语句中的地点实体名称“甲市”可知事件发生地点为国内,根据事件发生地点和第一角色实体对象的国别属性相同而与第二角色实体对象的国别属性不同,由此,可以得出该外事事件属于来访事件,即该事件语句所在的文本信息应被分类为来访事件。
在一个示例性的实施例中,请参阅图3,其显示为本申请中基于匹配结果对所述文本信息进行外事事件分类的步骤在一实施方式中的示意图。当触发词属于第三分类类型时、或者在候选语句中匹配触发词失败时,可以执行步骤S1301与S1302来得到。
其中,所述第三分类类型为匹配成功且所述触发词属于不能通过触发词词典进行外事事件分类的类型,即通过触发词无法判断施事方及受事方属于访问方或被访问方的类型。所述第三分类类型的触发词举例包括但不限于:出席、举行、主持、参加等。
在步骤S1301中,利用依存句法分析对所述事件语句进行句法解析,以确定事件语句中的动词及其子节点,并根据子节点和动词间的句法关系确定子节点为外事事件的施事方或受事方。
其中,所述各词汇之间的句法关系包括但不限于:各词汇相对于分句的结构,以及各词汇之间的依存关系。其中,所述各词汇相对于分句的结构举例包括:主谓宾结构、定状补结构等;所述各词汇之间的依存关系举例包括主谓关系、动宾关系、定中关系等。所述句法分析的方法包括但不限于:句法结构分析、依存句法解析等。在一些实施方式中,对所述事件语句进行句法分析以确定在事件语句中的动词,并且以该动词为核心建立所述动词与其他各词汇之间的句法关系。
在步骤S1302中,根据所述动词的词义、及该施事方和受事方对所述文本信息进行外事事件分类,以分类至外事事件分类还包括的其它事件分类中。
在此,所述依据模式匹配的方式确定与所述动词为主谓或动宾关系的词汇是否为事件角色。其中,所述事件角色包括但不限于:姓名、组织机构、公司等。若所述词汇为关于事件角色的词汇且所述词汇与所述动词为主谓关系,则将该词汇对应的事件角色确定为施事方;若所述词汇为关于事件角色的词汇且所述词汇与所述动词为动宾关系,则将该词汇对应的事件角色确定为受事方。在确定了实施方和受事方后,根据所述动词的词义对所述施事方和受事方进行访问方和被访问方的分类。
在确定了访问方和被访问方后,所述依据所述动词的词义结合访问方与被访问方的国别属性以及该事件的发生地对所述文本信息进行外事事件分类,以将此事件分类至出访事件分类、来访事件分类、及非外事事件分类以外的其它事件分类中。其中,所述动词的词义、访问方与被访问方的国别属性以及该事件的发生地等的确定方式与前述实施例中的类似,故在此不再重述。
举例来说,“A参加在C的会议B”可以分类到其它事件分类、或其它事件分类下细分的参加事件子分类中。
应当理解,本实施例中判断施事方与受事方的作用主要是用于确定以所述动词为中心的事件语句的语态(即主动语态或被动语态),从而确定事件语句中的访问方与被访问方。因此,如果不考虑语言表达中存在的主动、被动语态,而考虑实际在外事新闻的语言表达习惯中仅使用主动语态,则也可以不需要确定施事方和受事方。而仅依据访问方和被访问方同事件发生地点间国别属性的异同即可进行外事事件分类(即分为来访事件或出访事件)。
在一个示例性的实施例中,针对无法从文本信息(例如一篇新闻、一篇文章)的正文获取外事事件分类时,可通过分析该文本信息的标题或摘要从而进行外事事件分类以确定是否可以从标题或摘要中获取外事事件分类。对于从文本信息的正文、标题和摘要均无法获得外事事件分类或者经过模式匹配识别为非外事活动的文本信息则将其分类为非外事事件。
在一些实施方式中,将分类的结果存入数据库中和/或将分类的结果予以显示。
在此,将得到的分类结果存入数据库中,或者将得到的分类结果予以显示,或者将得到的分类结果同时存入数据库中并且予以显示。
在一些实施方式中,所述数据库可以集成在所述计算机系统中。或者,所述数据库还可以位于服务端,所述计算机系统将分类后的结果、或者将分类后的结果与文本信息一起发送给服务端以便服务端将文本信息按照所述分类结果进行分类。
在一些实施方式中,所述计算机系统包括一显示装置,由此可将分类结果显示在所述显示装置中,或者所述计算机系统与一用于显示分类结果的显示装置或第二计算机通讯连接,从而将文本信息分类结果发送给显示装置予以显示,或将文本信息分类结果发送给第二计算机并在第二计算机上予以显示。
在一个示例性的实施例中,将每一分类结果对应于相应的分类类别颜色并予以显示,或者将每一分类结果对应于相应的分类类别栏目并予以显示。例如,将出访事件对应于红色并将来访事件对应于蓝色,从而在对所述文本信息分类后,将文本信息与该文本信息对应的外事事件分类以相应的颜色呈现于显示界面中。又如,将出访事件对应于显示界面的左侧,并将来访事件对应于显示界面的右侧。
在一个示例性的实施例中,在上述实施例中对文本信息进行分类的过程中,还通过对所述事件语句进行句法分析后各词汇之间的句法关系以及触发词或动词的语义提取所述事件语句中的要素。所述要素包括但不限于:姓名、地点、行为等。
在一些实施方式中,可对所述事件语句进行依存句法分析,从而获取事件语句中的各词汇之间的句法关系。并且对事件语句进行序列标注,从而对事件语句中的各词汇进行实体名称的标记,以便依据实体名称提取所述事件语句中的要素。以“甲市小红花艺术团团长王五受美国梦露艺术团团长玛丽邀请在盐湖城进行中美两国的艺术文化共同交流以及舞蹈演出”为例,则可根据触发词“邀请”以及句法分析等上述实施例中的各步骤确定该事件为出访事件,且可从中依据实际要求提取要素“王五”、“美国”、“文化交流”、“演出”等。
在另一些实施方式中,可直接通过模式匹配的方式在事件语句中匹配预设的要素关键词,当所述事件语句中包含预设的要素关键词时,则将匹配的要素关键词确定为该文本信息所对应的要素。其中,所述要素关键词可包含于预先构建的要素关键词词典。例如继续以“甲市小红花艺术团团长王五受美国梦露艺术团团长玛丽邀请在盐湖城进行中美两国的艺术文化共同交流以及舞蹈演出”为例,假设在预先构建的要素关键词词典中包括要素关键词:“美国”、“文化交流”、“演出”,则可在上述例句中匹配“美国”、“文化交流”、“演出”,并将这些要素关键词作为该文本信息的要素。
在还有一些实施方式中,还可通过模式匹配的方式直接在文本信息中匹配预设的要素关键词,当所述文本信息中包含预设的要素关键词时,则将匹配的要素关键词确定为该文本信息所对应的要素。其中,所述要素关键词可包含于预先构建的要素关键词词典。
在一个示例性的实施例中,还包括根据预设的要素类型,将提取的要素与所述预设的要素类型相匹配,并将匹配的要素类型存入数据库和/或将匹配的要素类型予以显示。
在此,为对相似类型的要素进行集中处理,避免要素过多而造成信息杂乱。在一些实施方式中,可预设一或多个要素类型,每一要素类型对应有多个近义的要素,当从所述事件语句中提取到所述多个近义的要素中的至少一个时,则将该近义的要素所对应的要素类型存入数据库和/或予以显示。其中,所述要素类型用以将近义的要素聚类,其举例包括但不限于为:境外交流、合作发展、教育、文化交流等;所述近义的要素指的是语义或类型相近的要素,其举例包括但不限于:“舞蹈演出”与“芭蕾演出”、“交响乐独奏”与“民乐合奏”等。在另一些实施方式中,一个要素可能对应有多个要素类型,则可分别将这些要素类型确定为所述文本信息的要素并存入数据库和/或予以显示。在还有一些实施方式中,还可根据该文本信息的外事事件分类类型结合提取的要素中的一个或多个来匹配预设的要素类型。例如,继续以“甲市小红花艺术团团长王五受美国梦露艺术团团长玛丽邀请在盐湖城进行中美两国的艺术文化共同交流以及舞蹈演出”为例,在该事件语句中通过上述实施例中的方式提取到“美国”、“文化交流”、“演出”后,可通过本实施例中的方式匹配与其对应的预设要素类型。其中,通过该事件为外事事件的类型以及“文化交流”的要素,可将其与“境外交流”的预设要素类型匹配;根据“演出”可将其分别与“文艺演出”、“教育”的预设要素类型匹配等。
在一个示例性的实施方式中,将提取的要素或匹配的要素类型与所述文本信息的外事事件分类结果共同显示在所述文本信息附近,以便阅读者快速了解文本信息的内容。或者,所述要素、要素类型、以及外事事件分类类别还可以标签的形式与所述文本信息构建索引关系,从而便于阅读者在选择相应标签时显示相应的文本信息以供阅读。
本申请中的文本信息分类方法通过在文本信息中匹配外事事件触发词词典中的关键词,并依据不同类型的外事活动设计匹配模式,根据触发词的词义、文本信息中语句的句法规则等对文本信息进行分类。并且在此过程中,通过句法分析等方式简化句型结构,去除冗余信息,保证了分类结果的高效性和准确性,有效解决了现有技术中对外事事件分类困难的技术问题。
此外,本申请还通过对外事事件中词频高于预设值的关键词进行统计分析并根据词义分类,构建外事事件的触发词词典,从而利于外事事件文本信息的分类。
为此,本申请第二方面的实施例中提供一种触发词词典构建方法,所述触发词词典构建方法可通过一触发词词典构建系统来执行。其中,所述触发词词典构建系统可通过计算机设备中的软件和硬件来实现。
所述触发词词典构建方法可由计算机系统来执行,所述计算机系统通过其硬件和软件的结合来实现。
所述计算机系统至少包括:一个或多个存储器、一个或多个处理器、I/O接口、网络接口和输入结构等。
其中,所述存储器包含程序。所述存储器的类型包括:高速随机存取存储器,并且还可包括非易失性存储器,例如一个或多个磁盘存储设备、闪存设备或其他非易失性固态存储设备。
在某些实施例中,存储器还可以包括远离所述一个或多个处理器的存储器,例如经由RF电路或外部端口以及通信网络访问的网络附加存储器,其中所述通信网络可以是因特网、一个或多个内部网、局域网(LAN)、广域网(WLAN)、存储局域网(SAN)等,或其适当组合。存储器的控制器可以控制设备的诸如CPU和外设接口之类的其他组件对存储器的访问。
所述一个或多个处理器可操作地与网络接口耦接,以将计算设备以通信方式耦接至网络。例如,网络接口可将计算设备连接到局域网(如LAN)、和/或广域网(如WAN)。处理器还与I/O端口和输入结构可操作地耦接,该I/O端口可使得计算设备能够与各种其他电子设备进行交互,该输入结构可使得用户能够与计算设备进行交互。可选的,所述输入结构可包括按钮、键盘、鼠标、触控板等。此外可选的,电子显示器可包括触摸部件,该触摸部件通过检测对象触摸其屏幕的发生和/或位置来促进用户输入。
在一个示例性的实施例中,所述触发词词典构建系统获取相关于外事事件的至少一文本信息。
在可能的示例中,可以直接以数据流形式接收以获取文本信息;也可以是从txt、doc、docx、pdf等格式的文档读取文字以获取文本信息。其中,所述文本信息可以以篇为单位,即每条文本信息可以包含一篇文章或一篇文章的部分内容,这是由于每篇文章所描述的事件可能是不同的;则相应的,每条文本信息可以仅包括正文内容;也可以是除正文以外,还包括标题、摘要等内容。当然,每条文本信息也可以包含多篇文章,而可以通过每条文本信息中的不通篇文章间的区隔特征(例如标题、结尾的标点符号、文本内容和/或格式特征等);所述“条”指的是每个独立单位的文本信息,可能是来自不同抓取时机或不同文件的。
在可能的示例中,所述文本信息可通过事件数据库获取或通过网页提取获得。例如,在一事件数据库中包含有大量文本信息,可通过与该事件数据库通信以获得文本信息;又如,可通过网页数据提取的方式对政府、学校、企业、媒体等机构公开网站的文本信息进行读取,从而获得文本信息。
在一些实施方式中,为保证效率,可直接对政府、学校、企业、媒体等机构网站中外事板块的文本信息进行读取。
在获取了文本信息后,所述触发词词典构建系统对所述至少一文本信息进行统计分析,以得到所述至少一文本信息中出现词频高于预设值的关键词。在此,所述触发词词典构建系统对所述至少一文本信息进行语料分析以统计所述至少一文本信息中各词汇的词频,并将出现频率大于预设值的词汇作为关键词。在一些实施方式中,根据外事事件的特点,可优先将动词作为关键词。其中,所述预设值可依据实际需求以及文本信息的数量来确定,例如所述预设值可以为>50%,即在50%以上的文本信息中都出现过该词汇后则将其定义为关键词。应当理解,本实施例中的50%仅为举例,并非对本申请预设值的限制,根据实际情况,所述预设值也可以被设定为其他数值,如:30%、35%、40%、45%、50%、55%、60%、65%、70%、75%、80%、85%、90%、95%、100%等,在此不一一列出。
在确定了出现词频高于预设值的关键词后,所述触发词词典构建系统构建与每个所述关键词的语义相关的触发词分类类型,且由每种触发词分类类型对应的触发词集合构成触发词词典;其中,所述触发词分类类型包括第一分类类型、第二分类类型、以及第三分类类型。
在一个示例性的实施方式中,所述第一分类类型包括出访事件和来访事件,即通过所述第一分类类型中的触发词词义可以直接判断为出访事件或来访事件。属于第一分类类型的触发词包括但不限于:出访、赴、来访、莅临。
在一个示例性的实施方式中,所述第二分类类型为依据所述触发词的词义无法直接确定来访事件或出访事件的类型,属于所述第二分类类型的触发词包括但不限于为:访问、参观、到访、会见、接待、邀请、出席、举行、主持、参加等。在一些实施方式中,可进一步将属于第二分类类型的触发词进行细分。在此,将第二分类类型的触发词依据语义进一步细分类型为:施事方为访问方且受事方为被访问方的类型(Ⅱ-Ⅰ类型)、以及施事方为被访问方且受事方为访问方的类型(Ⅱ-Ⅱ类型)。在此,所述Ⅱ-Ⅰ类型的触发词举例包括但不限于:访问、参观、到访等;所述Ⅱ-Ⅱ类型的触发词举例包括但不限于:会见、接待、邀请等。
在一个示例性的实施方式中,所述第三分类类型为不能通过触发词词典进行外事事件分类的类型,即通过触发词无法判断施事方及受事方属于访问方或被访问方的类型。所述第三分类类型类型的触发词举例包括但不限于:出席、举行、主持、参加等。
在一个示例性的实施例中,本申请中的文本信息分类方法可由文本信息分类系统来实现。
请参阅图4,其显示为本申请中的文本信息分类系统在一实施方式中的结构示意图,如图所示,所述文本信息分类系统包括:通信单元411、处理单元412、存储单元413和/或显示单元414。
文本信息分类系统通过利用外事事件触发词词典对文本信息中包含外事关键信息的语句中匹配触发词,并根据触发词的类型对文本信息分类处理分析,从而高效、准确地对文本信息进行外事事件分类。
所述文本信息分类系统包含通过计算机系统中硬件和软件的结合来实现。
所述计算机系统至少包括:一个或多个存储器、一个或多个处理器、I/O接口、网络接口和输入结构等。
其中,所述存储器包含程序。所述存储器的类型包括:高速随机存取存储器,并且还可包括非易失性存储器,例如一个或多个磁盘存储设备、闪存设备或其他非易失性固态存储设备。
在某些实施例中,存储器还可以包括远离所述一个或多个处理器的存储器,例如经由RF电路或外部端口以及通信网络访问的网络附加存储器,其中所述通信网络可以是因特网、一个或多个内部网、局域网(LAN)、广域网(WLAN)、存储局域网(SAN)等,或其适当组合。存储器的控制器可以控制设备的诸如CPU和外设接口之类的其他组件对存储器的访问。
所述一个或多个处理器可操作地与网络接口耦接,以将计算设备以通信方式耦接至网络。例如,网络接口可将计算设备连接到局域网(如LAN)、和/或广域网(如WAN)。处理器还与I/O端口和输入结构可操作地耦接,该I/O端口可使得计算设备能够与各种其他电子设备进行交互,该输入结构可使得用户能够与计算设备进行交互。可选的,所述输入结构可包括按钮、键盘、鼠标、触控板等。此外可选的,电子显示器可包括触摸部件,该触摸部件通过检测对象触摸其屏幕的发生和/或位置来促进用户输入。
所述文本信息为通过文字描述的事件信息,其包括但不限于新闻、文章等。该文本信息的来源可以是计算机网络,例如通过互联网访问网页,而从网页提取该文本信息;或者,该文本信息的来源也可以是由网络中的某端或本地端编辑生成的文本文件;或者,该文本信息的来源也可以是由网络中的某端或本地端的文本数据库。
本申请的方案是对文本信息进行外事事件分类,即判断该文本信息中是否包含外事事件信息。在此,将不包含外事事件信息的文本信息定义为非外事事件,将包含外事事件信息的文本信息定义为外事事件,并进一步在外事事件中分类出访事件或来访事件。由此,定义所述外事事件的分类类别包括:出访事件、来访事件、以及非外事事件。
在一些实施例中,所述文本信息为中文信息,则在后续进行外事事件时,可依靠中文特点的语义及句法进行分析;而在其它的实施例中,若所述文本信息为外文,例如英文、法文、日文、德文等等,则根据相应语言特点的语义及句法进行分析。
在一个示例性的实施例中,所述通信单元用以获取文本信息。
在可能的示例中,可以直接以数据流形式接收以获取文本信息;也可以是从txt、doc、docx、pdf等格式的文档读取文字以获取文本信息。其中,所述文本信息可以以篇为单位,即每条文本信息可以包含一篇文章或一篇文章的部分内容,这是由于每篇文章所描述的事件可能是不同的;则相应的,每条文本信息可以仅包括正文内容;也可以是除正文以外,还包括标题、摘要等内容。当然,每条文本信息也可以包含多篇文章,而可以通过每条文本信息中的不通篇文章间的区隔特征(例如标题、结尾的标点符号、文本内容和/或格式特征等);所述“条”指的是每个独立单位的文本信息,可能是来自不同抓取时机或不同文件的。
在可能的示例中,所述文本信息可通过事件数据库获取或通过网页提取获得。例如,在一事件数据库中包含有大量文本信息,可通过与该事件数据库通信以获得文本信息;又如,所述文本信息分类系统可通过网页数据提取的方式对政府、学校、企业、媒体等机构公开网站的文本信息进行读取,从而获得文本信息。
在一些实施方式中,为保证效率,可直接对政府、学校、企业、媒体等机构网站中外事板块的文本信息进行读取。
在一个示例性的实施例中,所述文本信息分类系统还包括预处理单元,用以对所获取的文本信息进行预处理。所述预处理单元可以被配置在处理单元中,也可以独立于处理单元而设置。
应当理解,所述文本信息分类系统所获取的原始文本信息可能包含一些冗余数据,例如页面标签、非法字符等,因此在一些实施方式中,在预处理阶段,可对这些冗余数据进行清理,以提高文本信息分类效率。在还有一些实施方式中,所述预处理步骤还包括为每一原始文本信息创建索引,以便后续的数据操作。
在可能的实施方式中,所述创建索引包括为每一原始文本信息创建一唯一对应的ID序列号并存储于数据库中,该ID序列号与原始文本信息的唯一映射关系可为数据库的操作提供便利。例如,在数据库检索的过程中,可通过索引检索到对应的文本信息以对其进行相关操作;又如,在数据库更新的过程中,通过索引可方便对原数据库进行添加或删改操作等。
在一个示例性的实施方式中,所述处理单元412从所述文本信息内包含外事关键信息的候选语句中匹配触发词以得到事件语句。其中,所述触发词包含于触发词词典。
在一实施例中,首先确定所述文本信息内包含外事关键信息的候选语句。
在可能的实现方式中,所述处理单元412对所述文本信息进行分句处理以通过模式匹配判断每一分句是否包含关键信息,并将包含关键信息的分句确定为候选语句。
可选的,可以将文本信息分句处理以切分成若干分句。所述分句处理的方式包括但不限于为:按照标点符号分句,或者按照段落分句等。
进而,通过判断每一分句中是否包含外事关键信息,从而将包含有外事关键信息的分句定义为候选语句;其中,可选的,所述外事关键信息包括:时间信息、角色信息、及地点信息;
其中,所述时间信息举例包括:事件的发生时间、事件的结束时间等;所述角色信息举例包括:人物的姓名、组织机构的名称、公司的名称、人物职位等;所述地点信息举例包括:事件发生地点、人物所属地点(国籍)、组织机构或公司所属地点等。
在一些实施方式中,所述文本信息分类系统可将同时包括时间信息、角色信息、以及地点信息的分句确定为候选分句;在还有一些实施方式中,所述文本信息分类系统还可将包括时间信息、角色信息、以及地点信息中其一或其二的分句确定为候选语句。例如,所述文本信息分类系统可优先将同时包括时间信息、角色信息、以及地点信息的分句确定为候选分句,当文本信息中不存在同时包括时间信息、角色信息、以及地点信息的分句时,所述文本信息分类系统可进一步将包括时间信息、角色信息、以及地点信息中其二或其一的分句确定为候选分句,直到候选分句成功确定为止。
另外,若所述文本信息中的每个分句中均不存在任一外事关键信息,则可直接将该文本信息分类为非外事事件。
在实际情况中,所述文本信息中可能包含多个具有外事关键信息的分句即候选语句,则在一些实施方式中,可挑选包含外事关键信息最多的候选语句以执行下一步骤即匹配触发词的操作;或者在另一些实施方式中,可分别对每一候选语句执行下一步骤即匹配触发词的操作。
在可能的实施方式中,所述处理单元412依据所述触发词词典,从所述候选语句中匹配触发词以得到包含触发词的候选语句,并将包含触发词的候选语句确定为事件语句。
在此,在确定了候选语句后,根据预先构建的触发词词典,从包含关键信息的候选语句中匹配触发词词典中的触发词,并将匹配成功的分句确定为事件语句。
在此,依据外事事件的特点,在可能的实现方式中,所述触发词包括但不限于:出访、赴、来访、莅临、访问、参观、到访、会见、接待、邀请、出席、举行、主持、参加等。
应当理解,由于不同的触发词可能对应于不同的外事事件分类,为提高文本信息的分类效率,在此根据触发词的词义将所述触发词分为第一分类类型和第二分类类型。其中,所述第一分类类型为可依据所述触发词的词义对所述文本信息直接进行分类的类型,所述第一分类类型包括:出访事件和来访事件。属于所述出访事件的触发词包括但不限于为:出访、赴等,通过此类触发词的词义及语法特点,可以直接确定具有该触发词的文本信息为出访的外事事件;属于所述来访事件的触发词包括但不限于例如:来访、莅临等,通过此类触发词的词义及语法特点,可以直接确定具有该触发词的文本信息为来访的外事事件。
所述第二分类类型为依据所述触发词的词义无法直接对所述文本信息进行分类的类型,所述第二分类类型包括不明事件,属于所述不明事件的触发词包括但不限于例如:访问、参观、到访、会见、接待、邀请、出席、举行、主持、参加等,此类触发词无法直接确定所述文本信息为来访事件或出访事件,因此还需对包含此类触发词的文本信息进一步地分析以确定该文本信息的分类类型。
在一个示例性的实施例中,所述处理单元412还基于匹配结果,对所述文本信息进行外事事件分类。
在此,根据在所述候选语句中匹配触发词的匹配结果,对所述文本信息进行出访、来访或非外事事件的分类。其中,所述匹配结果包括匹配成功与匹配失败。所述匹配成功表示在所述候选语句中具有所述触发词词典中的触发词,所述匹配失败表示在所述候选语句中不具有所述触发词词典中的触发词。
进一步地,当匹配成功时,还继续判断所匹配的触发词属于第一分类类型、第二分类类型或第三分类类型。由此,依据不同的匹配结果对所述文本信息进行外事事件分类。并且,基于上述说明可以得出所述不同的匹配结果包括四种类型:匹配成功且所匹配的触发词属于第一分类类型、匹配成功且所匹配的触发词属于第二分类类型、匹配成功且所匹配的触发词属于第三分类类型、以及匹配失败,以下将对该四种不同类型的匹配结果进行分别说明。
在一个示例性的实施例中,若匹配成功且所述触发词属于能直接进行外事事件分类的第一分类类型,则将所述文本信息确定为与所述第一分类类型预先关联的出访事件或来访事件分类。
在此,所述第一分类类型中的出访事件或来访事件与所述文本信息分类中的出访事件与来访事件相关联且对应,即:当所述文本信息中的候选语句中具有第一分类类型中的触发词时,可直接将该文本信息归类为出访事件或来访事件。具体地说,当所述文本信息中的候选语句中具有“出访”、“赴”等属于出访事件类型的触发词时,可将该文本信息确定为出访事件;当所述文本信息中的候选语句中具有来访、莅临等属于来访事件类型的触发词时,可将该文本信息确定为来访事件。
在一个示例性的实施例中,若匹配成功且所述触发词属于能间接进行外事事件分类的第二分类类型,则对所述事件语句进行句法分析以得到所述事件语句中各词汇之间的句法关系,并根据由所述句法关系和提取自事件语句的各角色实体对象得到的相关于所述触发词的语法特征、该触发词的语义、所述各角色实体对象所关联的国别属性、以及提取自所述事件语句的事件发生地点及其所关联的国别属性,对所述文本信息进行出访事件或来访事件分类。
在此,若匹配成功且匹配的触发词属于第二分类类型,即所述文本信息分类系统无法直接根据所述触发词的词义判断所述文本信息的分类,则可对所述事件语句进行句法分析,从而得到事件语句中各词汇之间的句法关系。其中,所述各词汇之间的句法关系包括但不限于:各词汇相对于分句的结构,以及各词汇之间的依存关系。其中,所述各词汇相对于分句的结构举例包括:主谓宾结构、定/状/补语结构等;所述各词汇之间的依存关系举例包括主谓关系、动宾关系、定中关系等。所述句法分析的方法包括但不限于:句法结构分析、依存句法解析等。
在一些实施方式中,在对所述事件语句进行句法分析后,可以以触发词为核心构建所述事件语句的句法解析树,从而便于利用触发词的词义对所述文本信息进行分类。
在一个示例性的实施例中,所述每一事件语句中的各词汇对应有实体名称。
其中,实体名称的类型数量可根据实际需要来确定,在一些实施方式中,所述实体名称的类型数量包括26类,还有些实施方式中拓展到40类。在本实施例中,根据本实施例中的需要,所述实体名称包括但不限于:日期(TIME)、姓名(NAME)、职位(JOB)、组织机构(ORG)和/或公司(COMPANY)、以及地点(LOCATION)等。
在此,可以对事件语句进行序列标注,从而对事件语句中的各词汇进行对应实体名称的标记。
在一个示例性的实施例中,可采用BIO标注模式进行序列标注。应当理解,在BIO标注模式中,将每个字符标注为“B-X”、“I-X”或者“O”。其中,“B-X”表示此元素所在的片段属于X类型并且此元素在此片段的开头,“I-X”表示此元素所在的片段属于X类型并且此元素在此片段的中间位置,“O”表示不属于任何类型,X代表各实体名称。例如,在事件语句“4月1日,甲大学校长张三和副校长李四在甲市会见来自英国霍格沃兹大学的邓布利多校长一行。”中,假设甲大学是位于甲市的大学,且甲市属于国内城市,“英国霍格沃兹大学”为整个组织机构的名称,则“英国”中的两个字符可分别被标记为“B-地点I-地点”,“霍格沃兹大学”中的6个字符可被标记为“B-组织机构I-组织机构I-组织机构I-组织机构I-组织机构I-组织机构”,“甲市”中的两个字符可分别被标记为“B-地点I-地点”,“在”可被标记为“O”。
在一些实施例中,可以将所述事件语句中属于同一角色的实体名称整合形成角色实体对象,即所述角色实体对象用以表征属于同一角色的特征,所述特征由该角色相关的各个实体名称来表示。
由此,在对语句进行分析时,可将属于同一角色的实体名称整合为一角色实体对象,进而简化事件语句的结构,降低语句复杂度。在一些实施方式中,所述角色可以解释为人物,例如,将属于同一人物的实体名称整合形成角色实体对象,如“甲大学-校长-张三”,其中“甲大学”、“校长”、“张三”都是同一角色“张三”的实体名称;在还有一些实施方式中,所述角色可以解释为组织机构或公司,例如所述文本信息分类系统将属于同一组织机构的实体名称整合成角色实体对象,或所述文本信息分类系统将属于同一公司的实体名称整合成角色实体对象。
在此,在确定了所述事件语句中的各实体名称后,再借由上述句法分析中得到的句法关系,即可确定每一实体名称相关于所述触发词的语法特征。在一些示例中,所述语法特征包括各实体名称与所述触发词之间的主谓关系、动宾关系、定中关系等语法关系。
在一个示例性的实施例中,在确定每个角色实体对象时,可以以角色名称、连词或介词为切分点,对所述事件语句进行切分;进而,将切分后的事件语句中属于同一角色的实体名称整合以形成每一角色的角色实体对象。
继续以“4月1日,甲大学校长张三和副校长李四在甲市会见来自英国霍格沃兹大学的邓布利多校长一行。”为例,可将该事件语句切分为:4月1日(TIME),/甲大学(ORG)校长(JOB)张三(NAME)/和/副校长(JOB)李四(NAME)/在甲市(LOCATION)/会见/来自英国霍格沃兹大学(ORG)的邓布利多(NAME)校长(JOB)一行。
在对事件语句进行切分后,所述文本信息分类系统将属于同一角色的实体名称进行整合以形成每一角色的角色实体对象。在本实施例中,以所述文本信息分类系统根据所述事件语句中的句法关系以及实体名称的含义将属于同一人物的实体名称整合形成角色实体对象。继续上一段中的例子,所述文本信息分类系统将属于同一角色的实体名称进行整合以形成以下角色实体对象:
{"person":[{"job":"校长","org":"甲大学","company":null,"location":"甲市","name":"张三"}]}
{"person":[{"job":"副校长","org":"甲大学","company":null,"location":"甲市","name":"李四"}]}
{"person":[{"job":"校长","org":"英国霍格沃兹大学","company":null,"location":null,"name":"邓布利多"}]}。
在一个示例性的实施例中,在明确了事件语句中的各个角色实体对象,以及各个角色实体对象和触发词之间的句法关系后,则可以根据所述触发词的语义,判断与该触发词在语法特征上相关的各相关角色实体对象相对于所述触发词的执行身份;所述执行身份包括:访问方及被访问方,并根据各所述角色实体对象的执行身份及其国别属性、以及事件发生地点及其国别属性,以确定访问方或被访问方同事件发生地点间的国别属性的异同,据以进行外事事件分类。
简单而言,对于第二分类类型的触发词,虽然无法直接得到其属于出访或来访事件,但是,根据与其相关的角色实体对象相对于触发词(由触发词语义和语法特征确定)的执行身份,角色实体对象的国别属性,事件发生地点及其国别属性就能推断出是国内角色。
当然,所述执行身份还可包括:外事事件的施事方和受事方。
可选的,为了精确获得这些信息,可对所述事件语句进一步简化,以减少对文本信息进行外事事件分类的复杂度。
在一些实施方式中,所述文本信息分类系统先对所述事件语句中的冗余信息进行去除,使所述事件语句中仅包括触发词与各相关角色实体对象,并以主语、谓语、宾语的顺序表现。其中,所述冗余信息为在实体名称整合成角色实体对象过程中无关或相关度低的信息,其包括但不限于为:日期、标点符号、地点等信息。所述主语和宾语均为角色实体对象,谓语为触发词,且将主语定义为施事方、宾语定义为受事方。例如,某事件语句中包括A和B两个不同的角色实体对象,且在原事件语句中A在触发词之前、B在触发词之后,则该事件语句可形成“A触发词B”的形式,且A为相对于触发词的施事方、B为相对于触发词的受事方。
在一些实施方式中,可进一步将属于第二分类类型的触发词进行细分,以对各相关角色实体对象进行执行身份的判断,所述执行身份包括:访问方或被访问方。在此,将第二分类类型的触发词依据语义进一步细分类型为:施事方为访问方且受事方为被访问方的类型(Ⅱ-Ⅰ类型)、以及施事方为被访问方且受事方为访问方的类型(Ⅱ-Ⅱ类型)。在此,所述Ⅱ-Ⅰ类型的触发词举例包括但不限于:访问、参观、到访等;所述Ⅱ-Ⅱ类型的触发词举例包括但不限于:会见、接待、邀请等。由此通过触发词在第二分类类型中的细分类型对各相关角色实体对象进行执行身份的判断。
在一些实施方式中,可通过事件语句中的地点实体名称类型来判断事件发生地点,该事件发生地点及每一角色实体对象均具有国别属性,所述国别属性即角色实体对象、事件发生地点所在的国家。所述国别属性可以通过角色实体对象中的组织机构、公司以及地点等实体名称来判断。所述判断的方式包括但不限于通过预设的模式匹配方法,通过匹配预设的国内外地点名词词典,对角色实体对象的国别属性进行判断。另外,在一些实施例中,所述国别属性既可以通过具体的国家类型例如“美国”、“英国”、“中国”来表示,也可以通过相比于某国的内、外属性来表示,例如相对“中国”的“国内”或“国外”。
当触发词属于Ⅱ-Ⅰ类型或Ⅱ-Ⅱ类型时,若访问方为国内方,事件发生地属于国外,则该文本信息分类为出访事件;若访问方为国外方,事件发生地属于国内,则该文本信息分类为来访事件。应当理解,在外事事件中,根据语言表达习惯,一般不会存在访问方为国内方且事件发生地也属于国内、或者访问方为国外方且事件发生地属于国外的情况发生,当然并非以此为限,即本申请的上述方案并不受到违反此语言表达习惯的表述的限制。
需说明的是,如果不考虑语言表达中存在的主动、被动语态,而考虑实际在外事新闻的语言表达习惯中仅使用主动语态,则根据上述Ⅱ-Ⅰ类型或Ⅱ-Ⅱ类型进行外事事件分类时,也可以不需要确定施事方和受事方,而仅依据访问方和被访问方同事件发生地点间国别属性的异同即可进行外事事件分类(即分为来访事件或出访事件)。
以下将通过一具体示例进行说明,应当理解,该示例仅用于解释本申请的实施方式而非对本申请实施方式的限制。
在此,假设原事件语句为:“4月1日,甲大学校长张三和副校长李四在甲市会见来自英国霍格沃兹大学的邓布利多校长一行。”,甲大学是位于中国甲市的大学,甲市属于中国国内城市。在该事件语句中,“4月1日”、“在甲市”都不与张三、李四及邓布利多所在的角色实体对象有关,因此可在分析角色实体对象时将“4月1日”、“在甲市”去除。去除冗余信息后的事件语句变为“甲大学校长张三和副校长李四会见来自英国霍格沃兹大学的邓布利多校长一行”。在此,将属于同一组织机构的实体名称整合成角色实体对象,则以触发词为谓语,其主语的第一角色实体对象表示为:“甲大学校长张三和副校长李四”,其谓语的第二角色实体对象表示为:“来自英国霍格沃兹大学的邓布利多校长一行”。
根据触发词“会见”的词义,可将其归类为施事方为被访问方且受事方为访问方的类型(Ⅱ-Ⅱ类型),因此,第一角色实体对象为该事件的施事方且为被访问方,第二角色实体对象为该事件的受事方且为访问方。
简单来讲,即确定“甲大学校长张三和副校长李四”为被访问方,“来自英国霍格沃兹大学的邓布利多校长一行”为访问方。
根据第一角色实体对象中的组织机构实体名称“甲大学”可知第一角色实体对象的国别属性为国内方,根据第二角色实体对象中的组织机构实体名称“英国霍格沃兹大学”可知该第二角色实体对象的国别属性为国外方。并且,根据事件语句中的地点实体名称“甲市”可知事件发生地点为国内,根据事件发生地点和第一角色实体对象的国别属性相同而与第二角色实体对象的国别属性不同,由此,可以得出该外事事件属于来访事件,即该事件语句所在的文本信息应被分类为来访事件。
在一个示例性的实施例中,当触发词属于第三分类类型时、或者在候选语句中匹配触发词失败时,可通过以下方式来确定所述文本信息的分类。
其中,所述第三分类类型为匹配成功且所述触发词属于不能通过触发词词典进行外事事件分类的类型,即通过触发词无法判断施事方及受事方属于访问方或被访问方的类型。所述第三分类类型的触发词举例包括但不限于:出席、举行、主持、参加等。
在可能的实施方式中,利用依存句法分析对所述事件语句进行句法解析,以确定事件语句中的动词及其子节点,并根据子节点和动词间的句法关系确定子节点为外事事件的施事方或受事方。
其中,所述各词汇之间的句法关系包括但不限于:各词汇相对于分句的结构,以及各词汇之间的依存关系。其中,所述各词汇相对于分句的结构举例包括:主谓宾结构、定状补结构等;所述各词汇之间的依存关系举例包括主谓关系、动宾关系、定中关系等。所述句法分析的方法包括但不限于:句法结构分析、依存句法解析等。在一些实施方式中,所述文本信息分类系统对所述事件语句进行句法分析以确定在事件语句中的动词,并且以该动词为核心建立所述动词与其他各词汇之间的句法关系。
在可能的实施方式中,根据所述动词的词义、及该施事方和受事方对所述文本信息进行外事事件分类,以分类至外事事件分类还包括的其它事件分类中。
在此,所述依据模式匹配的方式确定与所述动词为主谓或动宾关系的词汇是否为事件角色。其中,所述事件角色包括但不限于:姓名、组织机构、公司等。若所述词汇为关于事件角色的词汇且所述词汇与所述动词为主谓关系,则将该词汇对应的事件角色确定为施事方;若所述词汇为关于事件角色的词汇且所述词汇与所述动词为动宾关系,则将该词汇对应的事件角色确定为受事方。在确定了实施方和受事方后,所述分本信息分类系统根据所述动词的词义对所述施事方和受事方进行访问方和被访问方的分类。在确定了访问方和被访问方后,所述文本信息分类系统依据所述动词的词义结合访问方与被访问方的国别属性以及该事件的发生地对所述文本信息进行外事事件分类,以将此事件分类至出访事件分类、来访事件分类、及非外事事件分类以外的其它事件分类中。其中,所述动词的词义、访问方与被访问方的国别属性以及该事件的发生地等的确定方式与前述实施例中的类似,故在此不再重述。举例来说,“A参加在C的会议B”可以分类到其它事件分类、或其它事件分类下细分的参加事件子分类中。
应当理解,本实施例中判断施事方与受事方的作用主要是用于确定以所述动词为中心的事件语句的语态(即主动语态或被动语态),从而确定事件语句中的访问方与被访问方。因此,如果不考虑语言表达中存在的主动、被动语态,而考虑实际在外事新闻的语言表达习惯中仅使用主动语态,则也可以不需要确定施事方和受事方。而仅依据访问方和被访问方同事件发生地点间国别属性的异同即可进行外事事件分类(即分为来访事件或出访事件)。
在一个示例性的实施例中,针对无法从文本信息(例如一篇新闻、一篇文章)的正文获取外事事件分类时,可通过分析该文本信息的标题或摘要从而进行外事事件分类以确定是否可以从标题或摘要中获取外事事件分类。对于从文本信息的正文、标题和摘要均无法获得外事事件分类或者经过模式匹配识别为非外事活动的文本信息则将其分类为非外事事件。
在一个示例性的实施例中,将分类的结果存入数据库中和/或将分类的结果予以显示。
在此,所述文本信息分类系统将得到的分类结果存入存储单元413的数据库中,或者所述文本信息分类系统将得到的分类结果在显示单元414中予以显示,或者所述文本信息分类系统将得到的分类结果同时存入存储单元413的数据库中并且在显示单元414中予以显示。
在一些实施方式中,所述数据库可以集成在所述文本信息分类系统中。或者,所述数据库还可以位于服务端,所述文本信息分类系统将分类后的结果、或者将分类后的结果与文本信息一起发送给服务端以便服务端将文本信息按照所述分类结果进行分类。
在一些实施方式中,所述文本信息分类系统所在计算机包括一显示装置,所述文本信息分类系统将分类结果显示在所述显示装置中,或者所述文本信息分类系统所在第一计算机与一用于显示分类结果的显示装置或第二计算机通讯连接,从而将文本信息分类结果发送给显示装置予以显示,或将文本信息分类结果发送给第二计算机并在第二计算机上予以显示。
在一个示例性的实施例中,所述文本信息分类系统将每一分类结果对应于相应的分类类别颜色并予以显示,或者将每一分类结果对应于相应的分类类别栏目并予以显示。例如,所述文本信息分类系统将出访事件对应于红色并将来访事件对应于蓝色,从而在对所述文本信息分类后,将文本信息与该文本信息对应的外事事件分类以相应的颜色呈现于显示界面中。又如,所述文本信息分类系统将出访事件对应于显示界面的左侧,并将来访事件对应于显示界面的右侧。
在一个示例性的实施例中,所述文本信息分类系统在上述实施例中对文本信息进行分类的过程中,还通过对所述事件语句进行句法分析后各词汇之间的句法关系以及触发词或动词的语义提取所述事件语句中的要素。所述要素包括但不限于:姓名、地点、行为等。
在一些实施方式中,所述文本信息分类系统可对所述事件语句进行依存句法分析,从而获取事件语句中的各词汇之间的句法关系。并且,所述文本信息分类系统对事件语句进行序列标注,从而对事件语句中的各词汇进行实体名称的标记,以便所述文本信息分类系统依据实体名称提取所述事件语句中的要素。以“甲市小红花艺术团团长王五受美国梦露艺术团团长玛丽邀请在盐湖城进行中美两国的艺术文化共同交流以及舞蹈演出”为例,则可根据触发词“邀请”以及句法分析等上述实施例中的各步骤确定该事件为出访事件,且可从中依据实际要求提取要素“王五”、“美国”、“文化交流”、“演出”等。
在另一些实施方式中,所述文本信息分类系统可直接通过模式匹配的方式在事件语句中匹配预设的要素关键词,当所述事件语句中包含预设的要素关键词时,则将匹配的要素关键词确定为该文本信息所对应的要素。其中,所述要素关键词可包含于预先构建的要素关键词词典。例如继续以“甲市小红花艺术团团长王五受美国梦露艺术团团长玛丽邀请在盐湖城进行中美两国的艺术文化共同交流以及舞蹈演出”为例,假设在预先构建的要素关键词词典中包括要素关键词:“美国”、“文化交流”、“演出”,则所述文本信息分类系统可在上述例句中匹配“美国”、“文化交流”、“演出”,并将这些要素关键词作为该文本信息的要素。
在还有一些实施方式中,所述文本信息系统还可通过模式匹配的方式直接在文本信息中匹配预设的要素关键词,当所述文本信息中包含预设的要素关键词时,则将匹配的要素关键词确定为该文本信息所对应的要素。其中,所述要素关键词可包含于预先构建的要素关键词词典。
在一个示例性的实施例中,还包括根据预设的要素类型,将提取的要素与所述预设的要素类型相匹配,并将匹配的要素类型存入数据库和/或将匹配的要素类型予以显示。
在此,为对相似类型的要素进行集中处理,避免要素过多而造成信息杂乱。在一些实施方式中,可预设一或多个要素类型,每一要素类型对应有多个近义的要素,当所述文本分类系统从所述事件语句中提取到所述多个近义的要素中的至少一个时,则将该近义的要素所对应的要素类型存入数据库和/或予以显示。其中,所述要素类型用以将近义的要素聚类,其举例包括但不限于为:境外交流、合作发展、教育、文化交流等;所述近义的要素指的是语义或类型相近的要素,其举例包括但不限于:“舞蹈演出”与“芭蕾演出”、“交响乐独奏”与“民乐合奏”等。在另一些实施方式中,一个要素可能对应有多个要素类型,则可分别将这些要素类型确定为所述文本信息的要素并存入数据库和/或予以显示。在还有一些实施方式中,所述文本信息分类系统还可根据该文本信息的外事事件分类类型结合提取的要素中的一个或多个来匹配预设的要素类型。例如,继续以“甲市小红花艺术团团长王五受美国梦露艺术团团长玛丽邀请在盐湖城进行中美两国的艺术文化共同交流以及舞蹈演出”为例,在该事件语句中通过上述实施例中的方式提取到“美国”、“文化交流”、“演出”后,可通过本实施例中的方式匹配与其对应的预设要素类型。其中,通过该事件为外事事件的类型以及“文化交流”的要素,可将其与“境外交流”的预设要素类型匹配;根据“演出”可将其分别与“文艺演出”、“教育”的预设要素类型匹配等。
在一个示例性的实施方式中,所述文本信息分类系统将提取的要素或匹配的要素类型与所述文本信息的外事事件分类结果共同显示在所述文本信息附近,以便阅读者快速了解文本信息的内容。或者,所述要素、要素类型、以及外事事件分类类别还可以标签的形式与所述文本信息构建索引关系,从而便于阅读者在选择相应标签时显示相应的文本信息以供阅读。
本申请中的文本信息分类系统通过在文本信息中匹配外事事件触发词词典中的关键词,并依据不同类型的外事活动设计匹配模式,根据触发词的词义、文本信息中语句的句法规则等对文本信息进行分类。并且在此过程中,通过句法分析等方式简化句型结构,去除冗余信息,保证了分类结果的高效性和准确性,有效解决了现有技术中对外事事件分类困难的技术问题。
应当理解,在本申请的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
其次,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
另外,本申请上述的附图中的流程图和系统框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这根据所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以通过执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以通过专用硬件与计算机指令的组合来实现。
举例来说,所述文本信息分类系统中的各个单元可以由依托在计算机系统中硬件而运行的软件实现;同样原理的,所述方法也可以由计算机系统中硬件运行软件实现。
其中,所述计算机系统可以是任何具有数学和逻辑运算、数据处理能力的一或多个计算装置,其包括但不限于:个人计算机、单台服务器、服务器集群、分布式服务端、基于云架构的服务端等。
在一个示例性的实施例中,请参阅图5,其显示为本申请中计算机系统的结构示意图,如图所示,所述计算机系统50包括一或多个存储器502、一个或多个处理器501、以及存储于所述存储器502中的一个或多个程序。
其中,所述一个或多个程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个处理器运行所述程序使得所述电子设备执行上述的文本信息分类方法,即所述处理器501执行执行指令使得计算系统50执行所述文本信息分类方法,借此通过在文本信息中匹配外事事件触发词词典中的关键词,并依据不同类型的外事活动设计匹配模式,根据触发词的词义、文本信息中语句的句法规则等对文本信息进行分类。
其中,所述存储器可包括高速随机存取存储器,并且还可包括非易失性存储器,例如一个或多个磁盘存储设备、闪存设备或其他非易失性固态存储设备。在某些实施例中,存储器还可以包括远离一个或多个处理器的存储器,例如经由RF电路或外部端口以及通信网络(未示出)访问的网络附加存储器,其中所述通信网络可以是因特网、一个或多个内部网、局域网(LAN)、广域网(WLAN)、存储局域网(SAN)等,或其适当组合。所述存储器还包括存储器控制器可控制设备的诸如CPU和外设接口之类的其他组件对存储器的访问。所述存储器用于存储至少一个程序,用以在执行时执行基于本申请技术思想而示例的各步骤。
所述一个或多个处理器可操作地与存储器和/或非易失性存储设备耦接。更具体地,处理器可执行在存储器和/或非易失性存储设备中存储的指令以在计算设备中执行操作,诸如生成图像数据和/或将图像数据传输到电子显示器。如此,处理器可包括一个或多个通用微处理器、一个或多个专用处理器(ASIC)、一个或多个现场可编程逻辑阵列(FPGA)、或它们的任何组合。一个或多个处理器还与接口单元可操作地耦接,通过接口单元,所述计算设备能够与各种其他电子设备进行交互,以及可使得用户能够与计算设备进行交互。其中,所述接口单元包括I/O端口、输入结构、网络端口等。其中,所述输入结构可包括按钮、键盘、鼠标、触控板等。
所述一个或多个处理器自存储器中读取所述至少一个程序,以实现各模块的功能。
此外,所述计算机系统还可以包含显示单元。所述电子显示器可包括触摸部件,该触摸部件通过检测对象触摸其屏幕(例如,电子显示器的表面)的发生和/或位置来促进用户输入。
请参阅图6,其显示为一种服务端的结构示意图。所述服务端包括但不限于单台服务器、服务器集群、分布式服务器群、云服务端等。在此,根据实际设计,所述服务端可配置于位于楼宇侧机房内的服务器设备中。例如,所述单台服务器或服务器集群位于楼宇侧的机房内。根据实际设计,所述服务端由云提供商所提供的云服务端提供。其中,所述云服务端包括公共云(Public Cloud)服务端与私有云(Private Cloud)服务端,其中,所述公共或私有云服务端包括Software-as-a-Service(软件即服务,SaaS)、Platform-as-a-Service(平台即服务,PaaS)及Infrastructure-as-a-Service(基础设施即服务,IaaS)等。所述私有云服务端例如阿里云计算服务平台、亚马逊(Amazon)云计算服务平台、百度云计算平台、腾讯云计算平台等等。
如图6所示,所述服务端包括接口单元601、存储单元603、以及处理单元602。其中,存储单元603包含非易失性存储器、存储服务器等。其中,所述非易失性存储器举例为固态硬盘或U盘等。所述存储服务器用于存储所获取的各种文本信息以及文本信息的分类结果。接口单元601包括网络接口、数据线接口等。其中所述网络接口包括但不限于:以太网的网络接口装置、基于移动网络(3G、4G、5G等)的网络接口装置、基于近距离通信(WiFi、蓝牙等)的网络接口装置等。所述数据线接口包括但不限于:USB接口、RS232等。所述接口单元与计算机设备、互联网等通信连接。处理单元602连接接口单元601和存储单元603,其包含:CPU或集成有CPU的芯片、可编程逻辑器件(FPGA)和多核处理器中的至少一种。处理单元602还包括内存、寄存器等用于临时存储数据的存储器。
所述接口单元601用于与计算机设备进行数据通信。其中,所述计算机设备用以存储文本信息。在此,所述接口单元601举例为网卡,可通过互联网或搭建的专用网络与计算机设备通信连接。
所述存储单元603用于存储至少一个程序。在此,所述存储单元603举例包括设置在服务端的硬盘并储存有所述至少一种程序,除此之外,根据程序运行期间所需获取的外部数据,至所述接口单元601所获取的各种文本信息被储存在存储单元603中。
所述处理单元602用于调用所述至少一个程序以协调所述接口单元和存储单元执行前述任一示例所提及的文本信息分类方法。其中,所述文本信息分类方法如图1~图3所对应的描述所示,在此不再重述。
请参阅图7,其显示为一种客户端的结构示意图。其中,所述客户端举例为一种应用程序,所述应用程序可以安装在智能手机、平板电脑等设备中。
在可能的实施方式中,所述客户端包括接口单元701、以及展示界面702。所述接口单元701包括网络接口、数据线接口等。其中所述网络接口包括但不限于:以太网的网络接口装置、基于移动网络(3G、4G、5G等)的网络接口装置、基于近距离通信(WiFi、蓝牙等)的网络接口装置等。所述数据线接口包括但不限于:USB接口、RS232等。所述接口单元与上述服务端的接口单元通信连接,从而与所述服务端进行数据通信以接收所述服务端提供的分类结果。
所述展示界面702与所述接口单元701通信连接,从而将接口单元701接收自服务端的分类结果予以展示。
需要说明的是,通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本申请的部分或全部可借助软件并结合必需的通用硬件平台来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,基于此,本申请再提供一种计算机可读写存储介质,其上存储有文本信息分类方法的计算机程序,所述存储有文本信息分类方法的计算机程序被处理器执行时实现上述文本信息分类方法的步骤。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。
于本申请提供的实施例中,所述计算机可读写存储介质可以包括只读存储器(ROM,Read OnlyMemory)、随机存取存储器(RAM,RandomAccessMemory)、EEPROM、CD-ROM或其它光盘存储装置、磁盘存储装置或其它磁存储设备、闪存、U盘、移动硬盘、或者能够用于存储具有指令或数据结构形式的期望的程序代码并能够由计算机进行存取的任何其它介质。另外,任何连接都可以适当地称为计算机可读介质。例如,如果指令是使用同轴电缆、光纤光缆、双绞线、数字订户线(DSL)或者诸如红外线、无线电和微波之类的无线技术,从网站、服务器或其它远程源发送的,则所述同轴电缆、光纤光缆、双绞线、DSL或者诸如红外线、无线电和微波之类的无线技术包括在所述介质的定义中。然而,应当理解的是,计算机可读写存储介质和数据存储介质不包括连接、载波、信号或者其它暂时性介质,而是旨在针对于非暂时性、有形的存储介质。如申请中所使用的磁盘和光盘包括压缩光盘(CD)、激光光盘、光盘、数字多功能光盘(DVD)、软盘和蓝光光盘,其中,磁盘通常磁性地复制数据,而光盘则用激光来光学地复制数据。
本申请可用于众多通用或专用的计算系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等。
本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机可读存储介质中。
上述实施例仅例示性说明本申请的原理及其功效,而非用于限制本申请。任何熟悉此技术的人士皆可在不违背本申请的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本申请所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本申请的权利要求所涵盖。

Claims (32)

1.一种文本信息分类方法,其特征在于,包括以下步骤:
获取文本信息;
从所述文本信息内包含外事关键信息的候选语句中匹配触发词以得到事件语句;其中,所述触发词包含于触发词词典;
基于匹配结果,对所述文本信息进行外事事件分类;所述外事事件分类的类别包括:出访事件、来访事件、以及非外事事件;
将分类的结果存入数据库中和/或将分类的结果予以显示。
2.根据权利要求1所述的文本信息分类方法,其特征在于,所述基于匹配结果,对所述文本信息进行分类的步骤包括:
若匹配成功且所述触发词属于能直接进行外事事件分类的第一分类类型,则将所述文本信息确定为与所述第一分类类型预先关联的出访事件或来访事件分类;
若匹配成功且所述触发词属于能间接进行外事事件分类的第二分类类型,则对所述事件语句进行句法分析以得到所述事件语句中各词汇之间的句法关系,并根据由所述句法关系和提取自事件语句的各角色实体对象得到的相关于所述触发词的语法特征、该触发词的语义、所述各角色实体对象所关联的国别属性、以及提取自所述事件语句的事件发生地点及其所关联的国别属性,对所述文本信息进行出访事件或来访事件分类;
若匹配失败或所述触发词属于不能通过触发词词典进行外事事件分类的第三分类类型,对所述事件语句进行句法分析以得到所述事件语句中的动词以及各词汇之间的句法关系,并根据所述动词的语义、以及所述各词汇之间的句法关系对所述文本信息进行出访事件或来访事件分类。
3.根据权利要求2所述的文本信息分类方法,其特征在于,所述角色实体对象是由所述事件语句中属于同一角色的实体名称整合形成的。
4.根据权利要求1或3所述的文本信息分类方法,其特征在于,所述每一事件语句中的各词汇对应有实体名称,所述实体名称包括:姓名、职位、组织机构和/或公司、以及地点。
5.根据权利要求3所述的文本信息分类方法,其特征在于,所述整合的步骤包括:
以角色名称、连词或介词为切分点,对所述事件语句进行切分;
将切分后的事件语句中属于同一角色的实体名称整合以形成每一角色的角色实体对象。
6.根据权利要求2所述的文本信息分类方法,其特征在于,所述根据由所述句法关系和提取自事件语句的各角色实体对象得到的相关于所述触发词的语法特征、该触发词的语义、所述各角色实体对象所关联的国别属性、以及提取自所述事件语句的事件发生地点及其所关联的国别属性,对所述文本信息进行出访事件或来访事件分类的步骤包括:
根据所述触发词的语义,判断与该触发词在语法特征上相关的各相关角色实体对象相对于所述触发词的执行身份;所述执行身份包括:访问方及被访问方;
根据各所述角色实体对象的执行身份及其国别属性、以及事件发生地点及其国别属性,以确定访问方或被访问方同事件发生地点间的国别属性的异同,据以进行外事事件分类。
7.根据权利要求2所述的文本信息分类方法,其特征在于,所述根据对所述事件语句进行句法分析以得到所述事件语句中的动词以及各词汇之间的句法关系,并根据所述动词的语义、以及所述各词汇之间的句法关系对所述文本信息进行出访事件或来访事件分类的步骤包括:
利用依存句法分析对所述事件语句进行句法解析,以确定事件语句中的动词及其子节点,并根据子节点和动词间的句法关系确定子节点为外事事件的施事方或受事方;
根据所述动词的词义、及该施事方和受事方对所述文本信息进行外事事件分类,以分类至外事事件分类还包括的其它事件分类中。
8.根据权利要求1所述的文本信息分类方法,其特征在于,所述从所述文本信息内包含外事关键信息的候选语句中匹配触发词以得到事件语句的步骤包括:
对所述文本信息进行分句处理以通过模式匹配判断每一分句是否包含关键信息,并将包含关键信息的分句确定为候选语句;
依据所述触发词词典,从所述候选语句中匹配触发词以得到包含触发词的候选语句,并将包含触发词的候选语句确定为事件语句。
9.根据权利要求1或8所述的文本信息分类方法,其特征在于,所述外事关键信息包括:时间信息、角色信息、及地点信息。
10.根据权利要求1所述的文本信息分类方法,其特征在于,所述获取的文本信息是经过预处理的。
11.根据权利要求1所述的文本信息分类方法,其特征在于,所述将分类的结果存入数据库中和/或将分类的结果予以显示的步骤包括:将每一分类结果对应于相应的分类类别颜色并予以显示,或者将每一分类结果对应于相应的分类类别栏目并予以显示。
12.根据权利要求1所述的文本信息分类方法,其特征在于,还包括基于匹配结果,对所述事件语句进行句法分析以得到所述事件语句中各词汇之间的句法关系,并至少根据所述各词汇之间的句法关系、以及所述触发词的语义提取所述事件语句中的要素。
13.根据权利要求12所述的文本信息分类方法,其特征在于,还包括根据预设的要素类型,将提取的要素与所述要素类型相匹配,并将匹配的要素类型存入数据库和/或将匹配的要素类型予以显示。
14.一种触发词词典构建方法,其特征在于,包括以下步骤:
获取相关于外事事件的至少一文本信息;
对所述至少一文本信息进行统计分析,以得到所述至少一文本信息中出现词频高于预设值的关键词;
构建与每个所述关键词的语义相关的触发词分类类型,且由每种触发词分类类型对应的触发词集合构成触发词词典;其中,所述触发词分类类型包括第一分类类型、第二分类类型、以及第三分类类型。
15.根据权利要求14所述的触发词词典构建方法,其特征在于,所述第一分类类型包括出访事件和来访事件。
16.一种文本信息分类系统,其特征在于,包括:
通信单元,用以获取文本信息;
处理单元,用以从所述文本信息内包含外事关键信息的候选语句中匹配触发词以得到事件语句;其中,所述触发词包含于触发词词典;以及,用以基于匹配结果,对所述文本信息进行外事事件分类;所述外事事件分类的类别包括:出访事件、来访事件、以及非外事事件;
存储单元和/或显示单元,用以将分类的结果存入数据库中和/或将分类的结果予以显示。
17.根据权利要求16所述的文本信息分类系统,其特征在于,所述处理单元基于匹配结果对所述文本信息进行外事事件分类中包括:
若匹配成功且所述触发词属于能直接进行外事事件分类的第一分类类型,则将所述文本信息确定为与所述第一分类类型预先关联的出访事件或来访事件分类;
若匹配成功且所述触发词属于能间接进行外事事件分类的第二分类类型,则对所述事件语句进行句法分析以得到所述事件语句中各词汇之间的句法关系,并根据由所述句法关系和提取自事件语句的各角色实体对象得到的相关于所述触发词的语法特征、该触发词的语义、所述各角色实体对象所关联的国别属性、以及提取自所述事件语句的事件发生地点及其所关联的国别属性,对所述文本信息进行出访事件或来访事件分类;若匹配失败或所述触发词属于不能通过触发词词典进行外事事件分类的第三分类类型,对所述事件语句进行句法分析以得到所述事件语句中的动词以及各词汇之间的句法关系,并根据所述动词的语义、以及所述各词汇之间的句法关系对所述文本信息进行出访事件或来访事件分类。
18.根据权利要求17所述的文本信息分类系统,其特征在于,所述角色实体对象是由所述事件语句中属于同一角色的实体名称整合形成的。
19.根据权利要求16或18所述的文本信息分类系统,其特征在于,所述每一事件语句中的各词汇对应有实体名称,所述实体名称包括:姓名、职位、组织机构和/或公司、以及地点。
20.根据权利要求18所述的文本信息分类系统,其特征在于,所述整合的步骤包括:
以角色名称、连词或介词为切分点,对所述事件语句进行切分;
将切分后的事件语句中属于同一角色的实体名称整合以形成每一角色的角色实体对象。
21.根据权利要求17所述的文本信息分类系统,其特征在于,所述根据由所述句法关系和提取自事件语句的各角色实体对象得到的相关于所述触发词的语法特征、该触发词的语义、所述各角色实体对象所关联的国别属性、以及提取自所述事件语句的事件发生地点及其所关联的国别属性,对所述文本信息进行出访事件或来访事件分类的步骤包括:
根据所述触发词的语义,判断与该触发词在语法特征上相关的各相关角色实体对象相对于所述触发词的执行身份;所述执行身份包括:访问方及被访问方;
根据各所述角色实体对象的执行身份及其国别属性、以及事件发生地点及其国别属性,以确定访问方或被访问方同事件发生地点间的国别属性的异同,据以进行外事事件分类。
22.根据权利要求17所述的文本信息分类系统,其特征在于,所述根据对所述事件语句进行句法分析以得到所述事件语句中的动词以及各词汇之间的句法关系,并根据所述动词的语义、以及所述各词汇之间的句法关系对所述文本信息进行出访事件或来访事件分类的步骤包括:
利用依存句法分析对所述事件语句进行句法解析,以确定事件语句中的动词及其子节点,并根据子节点和动词间的句法关系确定子节点为外事事件的施事方或受事方;
根据所述动词的词义、及该施事方和受事方对所述文本信息进行外事事件分类,以分类至外事事件分类还包括的其它事件分类中。
23.根据权利要求16所述的文本信息分类系统,其特征在于,所述从所述文本信息内包含外事关键信息的候选语句中匹配触发词以得到事件语句的步骤包括:
对所述文本信息进行分句处理以通过模式匹配判断每一分句是否包含关键信息,并将包含关键信息的分句确定为候选语句;
依据所述触发词词典,从所述候选语句中匹配触发词以得到包含触发词的候选语句,并将包含触发词的候选语句确定为事件语句。
24.根据权利要求16或23所述的文本信息分类系统,其特征在于,所述外事关键信息包括:时间信息、角色信息、及地点信息。
25.根据权利要求16所述的文本信息分类系统,其特征在于,还包括预处理单元,用以对所述获取的文本信息进行预处理。
26.根据权利要求16所述的文本信息分类系统,其特征在于,所述将分类的结果存入数据库中和/或将分类的结果予以显示的步骤包括:将每一分类结果对应于相应的分类类别颜色并予以显示,或者将每一分类结果对应于相应的分类类别栏目并予以显示。
27.根据权利要求16所述的文本信息分类系统,其特征在于,所述处理单元还包括基于匹配结果,对所述事件语句进行句法分析以得到所述事件语句中各词汇之间的句法关系,并至少根据所述各词汇之间的句法关系、以及所述触发词的语义提取所述事件语句中的要素。
28.根据权利要求26所述的文本信息分类系统,其特征在于,所述处理单元还包括根据预设的要素类型,将提取的要素与所述要素类型相匹配,并将匹配的要素类型存入数据库和/或将匹配的要素类型予以显示。
29.一种服务端,其特征在于,包括:
接口单元,用于与一计算机设备进行数据通信;其中,所述计算机设备用以存储文本信息;
存储单元,用于存储至少一个程序;以及
处理单元,用于调用所述至少一个程序以协调所述接口单元和存储单元执行如权利要求1~13中任一所述的文本信息分类方法。
30.一种客户端,其特征在于,包括:
展示界面,用以展示文本信息的分类结果;
接口单元,用于与一服务端进行数据通信以接收所述服务端提供的分类结果;其中,所述分类结果是基于如权利要求1~13中任一所述的文本信息分类方法所得到的。
31.一种计算机系统,其特征在于,包括:
一或多个存储器,用于存储至少一程序;
一或多个处理器,用于调用所述至少一程序,以执行如权利要求1~13中任一项所述的文本信息分类方法。
32.一种计算机可读存储介质,其特征在于,存储有至少一程序,所述至少一程序在被调用时执行并实现如权利要求1~13中任一项所述的文本信息分类方法。
CN202010020598.6A 2020-01-09 2020-01-09 文本信息分类方法、系统、设备及可读存储介质 Pending CN113111661A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010020598.6A CN113111661A (zh) 2020-01-09 2020-01-09 文本信息分类方法、系统、设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010020598.6A CN113111661A (zh) 2020-01-09 2020-01-09 文本信息分类方法、系统、设备及可读存储介质

Publications (1)

Publication Number Publication Date
CN113111661A true CN113111661A (zh) 2021-07-13

Family

ID=76708655

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010020598.6A Pending CN113111661A (zh) 2020-01-09 2020-01-09 文本信息分类方法、系统、设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN113111661A (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050108001A1 (en) * 2001-11-15 2005-05-19 Aarskog Brit H. Method and apparatus for textual exploration discovery
US20050278164A1 (en) * 2002-12-23 2005-12-15 Richard Hudson Computerized method and system for searching for text passages in text documents
CN104462075A (zh) * 2013-09-12 2015-03-25 江苏金鸽网络科技有限公司 一种互联网人物信息的属性提取方法
CN105302794A (zh) * 2015-10-30 2016-02-03 苏州大学 一种中文同指事件识别方法及系统
US20170075904A1 (en) * 2015-09-16 2017-03-16 Edgetide Llc System and method of extracting linked node graph data structures from unstructured content
CN106897364A (zh) * 2017-01-12 2017-06-27 上海大学 基于事件的中文指代语料库构建方法
CN106909628A (zh) * 2017-01-24 2017-06-30 南京大学 一种基于区间的文本相似搜索方法
CN108920447A (zh) * 2018-05-07 2018-11-30 国家计算机网络与信息安全管理中心 一种面向特定领域的中文事件抽取方法
CN110597994A (zh) * 2019-09-17 2019-12-20 北京百度网讯科技有限公司 事件元素识别方法和装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050108001A1 (en) * 2001-11-15 2005-05-19 Aarskog Brit H. Method and apparatus for textual exploration discovery
US20050278164A1 (en) * 2002-12-23 2005-12-15 Richard Hudson Computerized method and system for searching for text passages in text documents
CN104462075A (zh) * 2013-09-12 2015-03-25 江苏金鸽网络科技有限公司 一种互联网人物信息的属性提取方法
US20170075904A1 (en) * 2015-09-16 2017-03-16 Edgetide Llc System and method of extracting linked node graph data structures from unstructured content
CN105302794A (zh) * 2015-10-30 2016-02-03 苏州大学 一种中文同指事件识别方法及系统
CN106897364A (zh) * 2017-01-12 2017-06-27 上海大学 基于事件的中文指代语料库构建方法
CN106909628A (zh) * 2017-01-24 2017-06-30 南京大学 一种基于区间的文本相似搜索方法
CN108920447A (zh) * 2018-05-07 2018-11-30 国家计算机网络与信息安全管理中心 一种面向特定领域的中文事件抽取方法
CN110597994A (zh) * 2019-09-17 2019-12-20 北京百度网讯科技有限公司 事件元素识别方法和装置

Non-Patent Citations (8)

* Cited by examiner, † Cited by third party
Title
刘炜;刘菲京;王东;刘宗田;: "一种基于事件本体的文本事件要素提取方法", 中文信息学报, no. 04, 15 July 2016 (2016-07-15) *
刘炜;王旭;张雨嘉;刘宗田;: "一种面向突发事件的文本语料自动标注方法", 中文信息学报, no. 02, 15 March 2017 (2017-03-15) *
孙小川;吴警;尹浩然;芦天亮;: "一种面向微博的突发事件触发词识别方法研究", 中国人民公安大学学报(自然科学版), no. 04, 15 November 2019 (2019-11-15) *
张亚军,刘宗田,李强,周文,: "面向事件的中文指代语料库的构建", 上海大学学报(自然科学版), vol. 24, no. 6, 31 December 2018 (2018-12-31) *
昝红英;张腾飞;林爱英;: "基于介词用法的事件信息抽取研究", 计算机工程与设计, no. 07, 16 July 2013 (2013-07-16) *
李井竹;陆玉婷;顾进广;: "基于句法分析的临床指南事件及事件关系提取", 武汉大学学报(理学版), no. 02 *
魏勇;李响;王丰;: "运用文本处理框架抽取中文事件", 测绘科学, no. 04, 20 April 2016 (2016-04-20) *
黄海;张海玉;: "基于GATE的中文事件抽取方法", 山东农业工程学院学报, no. 05, 15 May 2017 (2017-05-15) *

Similar Documents

Publication Publication Date Title
US9053180B2 (en) Identifying common data objects representing solutions to a problem in different disciplines
Wijeratne et al. Emojinet: Building a machine readable sense inventory for emoji
US10146878B2 (en) Method and system for creating filters for social data topic creation
JP7289047B2 (ja) ブロックに基づく文書メタデータの抽出のための方法、コンピュータ・プログラム及びシステム
US10191946B2 (en) Answering natural language table queries through semantic table representation
RU2704531C1 (ru) Способ и устройство для анализа семантической информации
US20210342541A1 (en) Stable identification of entity mentions
JP2020191075A (ja) Web APIおよび関連エンドポイントの推薦
WO2016200667A1 (en) Identifying relationships using information extracted from documents
WO2014114175A1 (zh) 一种提供搜索引擎标签的方法和装置
EP3762876A1 (en) Intelligent knowledge-learning and question-answering
CN114595686A (zh) 知识抽取方法、知识抽取模型的训练方法及装置
CN113282762A (zh) 知识图谱构建方法、装置、电子设备和存储介质
US20220365956A1 (en) Method and apparatus for generating patent summary information, and electronic device and medium
CN113836316B (zh) 三元组数据的处理方法、训练方法、装置、设备及介质
CN111198932A (zh) 三元组获取方法、装置、电子设备及可读存储介质
Kim et al. Customer preference analysis based on SNS data
KR20230115964A (ko) 지식 그래프 생성 방법 및 장치
US20180113908A1 (en) Transforming and evaluating missing values in graph databases
US11188592B2 (en) Quantum superposition and entanglement of social sentiment and natural language generation
CN101089841B (zh) 基于知识编码的精确搜索方法和系统
US11928437B2 (en) Machine reading between the lines
CN115510247A (zh) 一种电碳政策知识图谱构建方法、装置、设备及存储介质
CN113111661A (zh) 文本信息分类方法、系统、设备及可读存储介质
CN111949781B (zh) 一种基于自然语句句法分析的智能交互方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination