CN111694931A - 要素获取方法及装置 - Google Patents

要素获取方法及装置 Download PDF

Info

Publication number
CN111694931A
CN111694931A CN202010528275.8A CN202010528275A CN111694931A CN 111694931 A CN111694931 A CN 111694931A CN 202010528275 A CN202010528275 A CN 202010528275A CN 111694931 A CN111694931 A CN 111694931A
Authority
CN
China
Prior art keywords
state
source text
sub
paragraphs
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010528275.8A
Other languages
English (en)
Other versions
CN111694931B (zh
Inventor
彭彬
杨天行
杨晨
张一麟
宋勋超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202010528275.8A priority Critical patent/CN111694931B/zh
Publication of CN111694931A publication Critical patent/CN111694931A/zh
Application granted granted Critical
Publication of CN111694931B publication Critical patent/CN111694931B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/18Legal services

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Business, Economics & Management (AREA)
  • Computational Linguistics (AREA)
  • Tourism & Hospitality (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Technology Law (AREA)
  • Human Computer Interaction (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Machine Translation (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本申请实施例提供一种要素获取方法及装置,涉及人工智能技术中的知识图谱、深度学习领域,具体包括:获取源文本;拆分源文本为多个子段落;每个子段落中包含完整语义的会话;分别识别多个子段落中的要素;按照源文本的时间脉络在多个子段落中确定要素的状态,其中,在要素的状态发生变化的情况下,记录要素的状态为时间在后的状态;确定状态为正常状态的要素为目标要素。依据源文本的时间脉络,以及包含完整语义的会话的子段落,可以实时修改要素的状态,能得到准确的要素。

Description

要素获取方法及装置
技术领域
本申请涉及数据处理的人工智能技术领域,尤其涉及一种要素获取方法及装置。
背景技术
在庭审场景中,通常需要从庭审记录中提取诉请要素(也称为诉讼请求)。
可能的实现中,相关人员需要人工在庭审记录中提取诉请要素,用于案件审理。或者,利用简单的文字识别技术,在庭审记录中查找与预设的诉请关键字匹配的诉请要素。
但是通过人工或文字识别提取诉请要素的方式,效率低且容易出错。
发明内容
本申请实施例提供一种要素获取方法及装置,以解决现有技术中通过人工或文字识别提取要素的方式,效率低且容易出错的技术问题。
本申请实施例第一方面提供一种要素获取方法,包括:
获取源文本;所述源文本中包括会话;
拆分所述源文本为多个子段落;每个所述子段落中包含完整语义的会话;
分别识别所述多个子段落中的要素;
按照所述源文本的时间脉络在所述多个子段落中确定所述要素的状态,其中,在所述要素的状态发生变化的情况下,记录所述要素的状态为时间在后的状态;所述状态包括正常状态和放弃状态;
确定状态为正常状态的要素为目标要素。
本申请实施例第二方面提供一种要素获取装置,包括:
获取模块,用于获取源文本;所述源文本中包括会话;
拆分模块,用于拆分所述源文本为多个子段落;每个所述子段落中包含完整语义的会话;
识别模块,用于分别识别所述多个子段落中的要素;
状态确定模块,用于按照所述源文本的时间脉络在所述多个子段落中确定所述要素的状态,其中,在所述要素的状态发生变化的情况下,记录所述要素的状态为时间在后的状态;所述状态包括正常状态和放弃状态;
要素确定模块,用于确定状态为正常状态的要素为目标要素。
本申请实施例第三方面提供一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如前述第一方面任一项所述的方法。
本申请实施例第四方面提供一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行如前述第一方面中任一项所述的方法。
综上所述,本申请实施例相对于现有技术的有益效果:
本申请实施例中提供了一种要素获取方法及装置,发现由于诉请请求方的要求通常是变化的,导致一些诉请失效,因此依据文字识别的方式获取诉请时,容易出现多统计的情况,获取的诉请要素不准确。此本申请实施例中,依据源文本的时间脉络,以及包含完整语义的会话的子段落,可以实时修改要素的状态,能得到准确的要素,具体的,可以获取源文本;拆分源文本为多个子段落;每个子段落中包含完整语义的会话;分别识别多个子段落中的要素;按照源文本的时间脉络在多个子段落中确定要素的状态,其中,在要素的状态发生变化的情况下,记录要素的状态为时间在后的状态;确定状态为正常状态的要素为目标要素。
附图说明
图1为本申请实施例提供的要素获取方法适用的系统架构示意图;
图2为本申请实施例提供的要素获取方法的流程示意图;
图3为本申请实施例提供的要素显示界面示意图;
图4为本申请实施例提供的要素获取装置的结构示意图;
图5是用来实现本申请实施例的要素获取方法的电子设备的框图。
具体实施方式
以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。
本申请实施例的方法可以应用于终端或服务器,终端可以包括:手机、平板电脑、笔记本电脑、或者台式电脑等电子设备。本申请实施例对应用的具体设备不作具体限定。
示例性的,终端或服务器中可以提供图形用户界面(graphical user interface,GUI),在图形用户界面中可以设置用于接收用户操作的控件、输入框等,使得用户可以在图形用户界面中输入源文本,进而实现本申请实施例的要素获取方法,可以理解,图形用户界面的具体内容可以根据实际的应用场景确定,本发明实施例对此不作具体限定。
本申请实施例中发现,通常的,在进行要素识别时,采用的是关键字匹配的方法,例如,利用一些预设的关键字库与文档等进行匹配,从而可以得到文档中包含了关键字库中的具体哪些关键字。
然而,在庭审场景中,诉请请求人(也可能称为原告等)在经过多轮答辩后,可能放弃部分诉请,按照通常的要素识别方法,会将诉请请求人已放弃的诉请也进行统计,导致获取的诉请不准确。
或者,在会话场景中,初始提出的一些要求,也可能随着会话的进行而放弃,如果只是识别会话中包括的要求,导致获取的要求不准确。
基于此,本申请实施例中,依据源文本的时间脉络,以及包含完整语义的会话的子段落,可以实时修改要素的状态,能得到准确的要素,具体的,可以获取源文本;拆分源文本为多个子段落;每个子段落中包含完整语义的会话;分别识别多个子段落中的要素;按照源文本的时间脉络在多个子段落中确定要素的状态,其中,在要素的状态发生变化的情况下,记录要素的状态为时间在后的状态;确定状态为正常状态的要素为目标要素。
示例性的,图1示出了一种本申请实施例提供的方法所适用的应用场景架构示意图。
一种可能的实现方式中,可以基于终端设备11与服务器12的交互,实现本申请实施例的要素获取方法。例如,用户可以在终端设备11中输入源文本,则终端设备11可以获取源文本,终端设备11可以生成包含源文本的要素获取请求,以及向服务器12发送该包含源文本的要素获取请求;服务器12可以拆分源文本为多个子段落;每个子段落中包含完整语义的会话;分别识别多个子段落中的要素;按照源文本的时间脉络在多个子段落中确定要素的状态,其中,在要素的状态发生变化的情况下,记录要素的状态为时间在后的状态;确定状态为正常状态的要素为目标要素;进而向显示设备(例如终端设备11)发送目标要素。从而可以在终端设备11中显示该目标要素。可以理解,具体应用中,服务器的数量可以为大于或等于1的任意值,本申请实施例对此不作具体限定。
一种可能的实现方式中,终端设备11可以在本地实现本申请实施例的要素获取方法。例如,用户可以在终端设备11中输入源文本,则终端设备11可以获取源文本,拆分源文本为多个子段落;每个子段落中包含完整语义的会话;分别识别多个子段落中的要素;按照源文本的时间脉络在多个子段落中确定要素的状态,其中,在要素的状态发生变化的情况下,记录要素的状态为时间在后的状态;确定状态为正常状态的要素为目标要素;进而向显示设备(例如终端设备11的显示设备)发送目标要素。从而可以在终端设备11的显示设备中显示该目标要素。
一种可能的实现方式中,服务器12可以在本地实现本申请实施例的要素获取方法。例如,用户可以在服务器12中输入源文本,则服务器12可以获取源文本,拆分源文本为多个子段落;每个子段落中包含完整语义的会话;分别识别多个子段落中的要素;按照源文本的时间脉络在多个子段落中确定要素的状态,其中,在要素的状态发生变化的情况下,记录要素的状态为时间在后的状态;确定状态为正常状态的要素为目标要素;进而向显示设备(例如服务器12的显示设备)发送目标要素。从而可以在服务器12的显示设备中显示该目标要素。
可以理解,本申请实施例的要素获取方法也可以应用于其他的场景,本申请实施例对此不作具体限定。
本申请实施例所描述的源文本包含会话的文本内容,例如源文本可以是庭审中的记录内容(或称为庭审记录),主要内容通常以审理人员(或称为法官等)、原告、被告的对话构成。示例性的,庭审记录文书结构大概可归纳为:介绍出庭成员->流程宣读(会场纪律等)->原被告信息确认->原告提出诉讼请求->法庭辩论(本案争议焦点)->基于被告的抗辩点(原被告发表意见)。
本申请实施例所描述的要素可以是需要提取的内容,例如可以包括原告提出的诉讼请求,例如,诉讼请求可能包含赔偿类型、赔偿金额等,在案件审理中,通常结合原告提出的诉讼请求进行适应的判定。
本申请实施例所描述的要素的状态用于反映否坚持要求该要素的诉请。例如,状态可以包括正常状态(或可以称为坚持状态或有效状态等)和放弃状态(或可以称为无效状态等),正常状态表示仍然坚持要求该诉请(或可以理解为该诉请有效),放弃状态表示放弃该诉请(或可以理解为该诉请失效)。
如图2所示,图2为本申请实施例提供的要素获取方法的流程示意图。该方法具体可以包括:
S101:获取源文本。
本申请实施例中,源文本的格式可以是图片、文字、音频、视频等,本申请实施例对此不做具体要求。
一种可能的实现方式中,用户可以在设备的用户界面上传或加载源文本文件,执行本申请实施例的方法的设备可以获取源文本。
S102:拆分所述源文本为多个子段落;每个所述子段落中包含完整语义的会话。
通常的,源文本的内容较多,如果直接利用初始的源文本获取要素,可能无法结合源文本的具体语义判定要素的状态。因此,本申请实施例中,将源文本拆分为多个子段落,后续可以通过识别各子段落的要素的状态,进而按照时间脉络统计可以得到较准确的目标要素。
本申请实施例一种可能的实现方式中,拆分源文本为多个子段落时,可以以完整会话、不影响语义的最小粒度的描述做为划分子段落的依据。
示例性的,拆分后子段落格式可以如下:1.审:xx原xx被xx;2.审:xx原xx被xx原xx被xx;3.审:xx原xx;4.审:xx被xx。子段落中包含了完整语义的会话,这样可使得对话上下文信息不丢失。
另一种示例,拆分后子段落格式可以如下:1.甲:我需要承担本次项目中的什么?2.乙:甲需要承担本次项目中的ABCD。子段落中包含了完整语义的会话,这样可使得对话上下文信息不丢失。
可以理解,具体拆分是所采用的技术可以结合深度学习、拆分算法等实现,本申请实施例对具体的实现不做限定。
S103:分别识别所述多个子段落中的要素。
本申请实施例中,可以采用任意可行的识别方式,在各个子段落中识别要素。
可能的实现方式中,可以用规则或者模型方式识别相关要素。例如,规则可以是基于大量的样本数据挖掘得到的,模型可以是利用样本数据训练得到的等。本申请实施例对此不做赘述。
示例性的,比如子段落1可以为:
“审:原告,你方诉请的组成是怎样的?
原告(或原告代理人):投资差额损失16400元、印花税16.4元、佣金16.4元、利息2.07元。以我方提交的损失计算表为准。”
可以在子段落1中识别要素包含:要求赔偿投资差额损失、要求赔偿印花税、要求赔偿佣金、要求赔偿利息。
另一种示例,比如子段落2可以为:
“甲:我需要承担本次项目中的什么。
乙:甲需要承担本次项目中的ABCD。”
可以在子段落1中识别要素包含:ABCD。
S104:按照所述源文本的时间脉络在所述多个子段落中确定所述要素的状态,其中,在所述要素的状态发生变化的情况下,记录所述要素的状态为时间在后的状态;所述状态包括正常状态和放弃状态。
本申请实施例中,可以按照源文本的时间脉络(也可能称为记录时间等)依次处理多个子段落,以S103中的子段落1示例,结合该子段落1的上下文语义,可以得知识别到的四个要素的状态均为正常状态。
按照源文本的记录时间,如果在子段落1之后还有子段落3:
“审:原告,你方关于印花税的诉请是否坚持?
原代:不再主张,放弃印花税的诉请。”
则可以识别到要素【要求赔偿印花税】的状态发生改变,变为放弃状态,则可以采用“放弃状态”替换之前的“正常状态”。
可以理解,在具体实现中,识别状态可以结合深度学习、关键字识别算法等实现,例如,识别到“放弃”等关键字,可以结合上下文语义判断具体放弃的要素,本申请实施例对具体的实现不做限定。
另一种示例,按照时间脉络,如果在子段落2之后还有子段落4:
“甲:我因为有其他事情,CD不能承担。
乙:那么暂定甲在本次项目中将承担AB,CD不由乙承担。”
则可以识别到要素CD的状态发生改变,变为放弃状态,则可以采用“放弃状态”替换之前的“正常状态”。
S105:确定状态为正常状态的要素为目标要素。
本申请实施例中,可以将状态为正常状态的要素作为目标要素,则目标要素是较为准确的要素。
一种可能的实现中,可以统计要素和要素对应的状态。例如通过S103和S104得到要素和状态,可以统计诉请识别结果,比如诉请识别结果为:“识别到诉请:要求赔偿佣金损失”,“识别到诉请:要求赔偿利息损失”,“识别到诉请:要求赔偿印花税损失(已放弃)”,“识别到诉请:要求赔偿股票投资差额损失”。进而,可以得到目标要素为“要求赔偿佣金损失”、“要求赔偿利息损失”和“要求赔偿股票投资差额损失”。
或者,以子段落2和子段落4为例,可以得到目标要素为AB。
综上所述,本申请实施例中提供了一种要素获取方法,发现由于诉请请求方的要求通常是变化的,导致一些诉请失效,因此依据文字识别的方式获取诉请时,容易出现多统计的情况,获取的要素不准确。因此本申请实施例中,依据源文本的时间脉络,以及包含完整语义的会话的子段落,可以实时修改要素的状态,能得到准确的要素,具体的,可以获取源文本;拆分源文本为多个子段落;每个子段落中包含完整语义的会话;分别识别多个子段落中的要素;按照源文本的时间脉络在多个子段落中确定要素的状态,其中,在要素的状态发生变化的情况下,记录要素的状态为时间在后的状态;确定状态为正常状态的要素为目标要素。
在图2对应的实施例的基础上,一种可能的实现方式中,S104的按照所述源文本的时间脉络在所述多个子段落中确定所述要素的状态,包括:对于其中一个所述要素,根据所述要素在所述子段落中的位置,以及所述子段落的上下文信息,确定所述要素的状态;其中,在多个所述子段落中识别到所述要素和所述要素的状态的情况下,按照所述源文本的时间脉络记录所述要素的状态为时间在后的状态。
本申请实施例中,在子段落中识别到要素后,可以确认要素在该子段落中的位置,进而,可以在该要素后的内容中,识别是否有放弃该要素的上下文信息,进而可以确认该要素的状态是否改变,如果改变,按照源文本的时间脉络记录所述要素的状态为时间在后的状态,这样可以得到准确的要素的状态。
在图2对应的实施例的基础上,一种可能的实现方式中,S1的获取源文本,包括:获取包含所述源文本的图像;识别所述图像中的所述源文本。
本申请实施例中,可以利用摄像设备等获取源文本的图像,进而利用图像识别技术识别图像中的源文本。因为拍照获取源文本的方式相对简单,可以节约输入源文本的人员的工作量。
在图2对应的实施例的基础上,一种可能的实现方式中,S105之后,还可以包括:显示所述目标要素。
一种可能的实现方式中,S101-S105的执行主体为服务器,显示目标要素是用户输入源文本的终端设备,服务器可以向终端设备发送目标要素,进而终端设备可以显示目标要素。
一种可能的实现方式中,S101-S105的执行主体为用户输入源文本的终端设备,则显示设备可以是终端设备的显示屏幕等,终端设备可以向显示设备发送目标要素,显示设备可以显示目标要素。
一种可能的实现方式中,在显示目标要素时,可以按照源文本的时间脉络显示目标要素,方便用户更清晰了解要素产生过程。
示例性的,图3为一种显示界面示意图,在显示界面中可以显示N(N为自然数)个要素随着时间脉络的状态,状态为放弃状态的要素可以在目标要素中删除。
图4为本申请提供的要素获取装置一实施例的结构示意图。如图4所示,本实施例提供的要素获取装置包括:
获取模块31,用于获取源文本;所述源文本中包括会话;
拆分模块32,用于拆分所述源文本为多个子段落;每个所述子段落中包含完整语义的会话;
识别模块33,用于分别识别所述多个子段落中的要素;
状态确定模块34,用于按照所述源文本的时间脉络在所述多个子段落中确定所述要素的状态,其中,在所述要素的状态发生变化的情况下,记录所述要素的状态为时间在后的状态;所述状态包括正常状态和放弃状态;
要素确定模块35,用于确定状态为正常状态的要素为目标要素。
一种可能的实现方式中,所述状态确定模块,具体用于:对于其中一个所述要素,根据所述要素在所述子段落中的位置,以及所述子段落的上下文信息,确定所述要素的状态;其中,在多个所述子段落中识别到所述要素和所述要素的状态的情况下,按照所述源文本的时间脉络记录所述要素的状态为时间在后的状态。
一种可能的实现方式中,所述获取模块,具体用于:获取包含所述源文本的图像;识别所述图像中的所述源文本。
一种可能的实现方式中,还包括:显示模块,用于显示所述目标要素。
一种可能的实现方式中,所述显示模块,具体用于按照所述源文本的时间脉络显示所述目标要素。
一种可能的实现方式中,还包括:通信模块,用于向目标设备发送所述目标要素。
一种可能的实现方式中,所述源文本为庭审记录,所述要素为诉请要素。
本申请实施例中提供了一种要素获取装置,发现由于诉请请求方的要求通常是变化的,导致一些诉请失效,因此依据文字识别的方式获取诉请时,容易出现多统计的情况,获取的要素不准确。因此本申请实施例中,依据源文本的时间脉络,以及包含完整语义的会话的子段落,可以实时修改要素的状态,能得到准确的要素,具体的,可以获取源文本;拆分源文本为多个子段落;每个子段落中包含完整语义的会话;分别识别多个子段落中的要素;按照源文本的时间脉络在多个子段落中确定要素的状态,其中,在要素的状态发生变化的情况下,记录要素的状态为时间在后的状态;确定状态为正常状态的要素为目标要素。
本申请各实施例提供的要素获取装置可用于执行如前述各对应的实施例所示的方法,其实现方式与原理相同,不再赘述。
根据本申请的实施例,本申请还提供了一种电子设备和一种可读存储介质。
如图5所示,是根据本申请实施例的要素获取方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
如图5所示,该电子设备包括:一个或多个处理器501、存储器502,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图5中以一个处理器501为例。
存储器502即为本申请所提供的非瞬时计算机可读存储介质。其中,所述存储器存储有可由至少一个处理器执行的指令,以使所述至少一个处理器执行本申请所提供的要素获取方法。本申请的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本申请所提供的要素获取方法。
存储器502作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中的要素获取方法对应的程序指令/模块(例如,附图4所示的获取模块31、拆分模块32、识别模块33、状态确定模块34和要素确定模块35)。处理器501通过运行存储在存储器502中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的要素获取方法。
存储器502可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据要素获取电子设备的使用所创建的数据等。此外,存储器502可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器502可选包括相对于处理器501远程设置的存储器,这些远程存储器可以通过网络连接至要素获取电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
要素获取方法的电子设备还可以包括:输入装置503和输出装置504。处理器501、存储器502、输入装置503和输出装置504可以通过总线或者其他方式连接,图5中以通过总线连接为例。
输入装置503可接收输入的数字或字符信息,以及产生与要素获取电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置504可以包括显示设备、辅助照明装置(例如,LED)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。
此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
根据本申请实施例的技术方案,发现由于诉请请求方的要求通常是变化的,导致一些诉请失效,因此依据文字识别的方式获取诉请时,容易出现多统计的情况,获取的要素不准确。因此本申请实施例中,依据源文本的时间脉络,以及包含完整语义的会话的子段落,可以实时修改要素的状态,能得到准确的要素,具体的,可以获取源文本;拆分源文本为多个子段落;每个子段落中包含完整语义的会话;分别识别多个子段落中的要素;按照源文本的时间脉络在多个子段落中确定要素的状态,其中,在要素的状态发生变化的情况下,记录要素的状态为时间在后的状态;确定状态为正常状态的要素为目标要素。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。

Claims (16)

1.一种要素获取方法,所述方法包括:
获取源文本;所述源文本中包括会话;
拆分所述源文本为多个子段落;每个所述子段落中包含完整语义的会话;
分别识别所述多个子段落中的要素;
按照所述源文本的时间脉络在所述多个子段落中确定所述要素的状态,其中,在所述要素的状态发生变化的情况下,记录所述要素的状态为时间在后的状态;所述状态包括正常状态和放弃状态;
确定状态为正常状态的要素为目标要素。
2.根据权利要求1所述的方法,其中,按照所述源文本的时间脉络在所述多个子段落中确定所述要素的状态,包括:
对于其中一个所述要素,根据所述要素在所述子段落中的位置,以及所述子段落的上下文信息,确定所述要素的状态;
其中,在多个所述子段落中识别到所述要素和所述要素的状态的情况下,按照所述源文本的时间脉络记录所述要素的状态为时间在后的状态。
3.根据权利要求1-2任一项所述的方法,其中,获取源文本,包括:
获取包含所述源文本的图像;
识别所述图像中的所述源文本。
4.根据权利要求1-2任一项所述的方法,还包括:
显示所述目标要素。
5.根据权利要求4所述的方法,其中,显示所述目标要素,包括:
按照所述源文本的时间脉络显示所述目标要素。
6.根据权利要求1-2任一项所述的方法,还包括:
向目标设备发送所述目标要素。
7.根据权利要求1-2任一项所述的方法,其中,所述源文本为庭审记录,所述要素为诉请要素。
8.一种要素获取装置,包括:
获取模块,用于获取源文本;所述源文本中包括会话;
拆分模块,用于拆分所述源文本为多个子段落;每个所述子段落中包含完整语义的会话;
识别模块,用于分别识别所述多个子段落中的要素;
状态确定模块,用于按照所述源文本的时间脉络在所述多个子段落中确定所述要素的状态,其中,在所述要素的状态发生变化的情况下,记录所述要素的状态为时间在后的状态;所述状态包括正常状态和放弃状态;
要素确定模块,用于确定状态为正常状态的要素为目标要素。
9.根据权利要求8所述的装置,其中,所述状态确定模块,具体用于:对于其中一个所述要素,根据所述要素在所述子段落中的位置,以及所述子段落的上下文信息,确定所述要素的状态;其中,在多个所述子段落中识别到所述要素和所述要素的状态的情况下,按照所述源文本的时间脉络记录所述要素的状态为时间在后的状态。
10.根据权利要求8-9任一项所述的装置,其中,所述获取模块,具体用于:获取包含所述源文本的图像;识别所述图像中的所述源文本。
11.根据权利要求8-9任一项所述的装置,还包括:
显示模块,用于显示所述目标要素。
12.根据权利要求13所述的装置,其中,所述显示模块,具体用于按照所述源文本的时间脉络显示所述目标要素。
13.根据权利要求8-9任一项所述的装置,还包括:
通信模块,用于向目标设备发送所述目标要素。
14.根据权利要求8-9任一项所述的装置,其中,所述源文本为庭审记录,所述要素为诉请要素。
15.一种电子设备,包括:
至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1-7任一项所述的方法的指令。
16.一种存储有计算机指令的非瞬时计算机可读存储介质,计算机指令用于使所述计算机执行如权利要求1-7任一项所述的方法。
CN202010528275.8A 2020-06-11 2020-06-11 要素获取方法及装置 Active CN111694931B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010528275.8A CN111694931B (zh) 2020-06-11 2020-06-11 要素获取方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010528275.8A CN111694931B (zh) 2020-06-11 2020-06-11 要素获取方法及装置

Publications (2)

Publication Number Publication Date
CN111694931A true CN111694931A (zh) 2020-09-22
CN111694931B CN111694931B (zh) 2023-07-04

Family

ID=72480266

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010528275.8A Active CN111694931B (zh) 2020-06-11 2020-06-11 要素获取方法及装置

Country Status (1)

Country Link
CN (1) CN111694931B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113032586A (zh) * 2021-03-19 2021-06-25 京东数字科技控股股份有限公司 对文本中的时间信息进行提取的方法、装置及电子设备

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2637992C1 (ru) * 2016-08-25 2017-12-08 Общество с ограниченной ответственностью "Аби Продакшн" Способ извлечения фактов из текстов на естественном языке
CN107633465A (zh) * 2017-08-21 2018-01-26 厦门能见易判信息科技有限公司 智能辅助判案方法
CN107885756A (zh) * 2016-09-30 2018-04-06 华为技术有限公司 基于深度学习的对话方法、装置及设备
CN108038091A (zh) * 2017-10-30 2018-05-15 上海思贤信息技术股份有限公司 一种基于图的裁判文书案件相似计算与检索方法及系统
CN108595548A (zh) * 2018-04-09 2018-09-28 南京网感至察信息科技有限公司 一种基于马尔可夫逻辑网络的案件裁判结果预测方法
CN110020134A (zh) * 2017-11-09 2019-07-16 北京国双科技有限公司 一种知识服务信息的推送方法、系统、存储介质和处理器
CN110288495A (zh) * 2019-06-25 2019-09-27 北京市律典通科技有限公司 案件诉讼时效智能审查方法及装置
CN110362656A (zh) * 2019-06-03 2019-10-22 广东幽澜机器人科技有限公司 一种语义要素提取方法及装置
CN110633458A (zh) * 2018-06-25 2019-12-31 阿里巴巴集团控股有限公司 裁判文书的生成方法和生成装置
CN110895568A (zh) * 2018-09-13 2020-03-20 阿里巴巴集团控股有限公司 处理庭审记录的方法和系统

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2637992C1 (ru) * 2016-08-25 2017-12-08 Общество с ограниченной ответственностью "Аби Продакшн" Способ извлечения фактов из текстов на естественном языке
CN107885756A (zh) * 2016-09-30 2018-04-06 华为技术有限公司 基于深度学习的对话方法、装置及设备
CN107633465A (zh) * 2017-08-21 2018-01-26 厦门能见易判信息科技有限公司 智能辅助判案方法
CN108038091A (zh) * 2017-10-30 2018-05-15 上海思贤信息技术股份有限公司 一种基于图的裁判文书案件相似计算与检索方法及系统
CN110020134A (zh) * 2017-11-09 2019-07-16 北京国双科技有限公司 一种知识服务信息的推送方法、系统、存储介质和处理器
CN108595548A (zh) * 2018-04-09 2018-09-28 南京网感至察信息科技有限公司 一种基于马尔可夫逻辑网络的案件裁判结果预测方法
CN110633458A (zh) * 2018-06-25 2019-12-31 阿里巴巴集团控股有限公司 裁判文书的生成方法和生成装置
CN110895568A (zh) * 2018-09-13 2020-03-20 阿里巴巴集团控股有限公司 处理庭审记录的方法和系统
CN110362656A (zh) * 2019-06-03 2019-10-22 广东幽澜机器人科技有限公司 一种语义要素提取方法及装置
CN110288495A (zh) * 2019-06-25 2019-09-27 北京市律典通科技有限公司 案件诉讼时效智能审查方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
晋耀红等: "一个基于语境框架的文本特征提取算法", 《计算机研究与发展》 *
晋耀红等: "一个基于语境框架的文本特征提取算法", 《计算机研究与发展》, no. 04, 16 April 2004 (2004-04-16) *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113032586A (zh) * 2021-03-19 2021-06-25 京东数字科技控股股份有限公司 对文本中的时间信息进行提取的方法、装置及电子设备
CN113032586B (zh) * 2021-03-19 2023-11-03 京东科技控股股份有限公司 对文本中的时间信息进行提取的方法、装置及电子设备

Also Published As

Publication number Publication date
CN111694931B (zh) 2023-07-04

Similar Documents

Publication Publication Date Title
CN110008045B (zh) 微服务的聚合方法、装置、设备及存储介质
CN111221984A (zh) 多模态内容处理方法、装置、设备及存储介质
CN112115299A (zh) 视频搜索方法、装置、推荐方法、电子设备及存储介质
US11366818B2 (en) Context-aware dynamic content assist
US11423907B2 (en) Virtual object image display method and apparatus, electronic device and storage medium
KR102485129B1 (ko) 정보 푸시 방법, 장치, 기기 및 저장매체
EP4006909A1 (en) Method, apparatus and device for quality control and storage medium
CN111104514A (zh) 文档标签模型的训练方法及装置
CN110888926B (zh) 医疗文本结构化的方法以及装置
CN111582477B (zh) 神经网络模型的训练方法和装置
CN113407850B (zh) 一种虚拟形象的确定和获取方法、装置以及电子设备
US20210334297A1 (en) Comments-ordering method, apparatus, device and computer storage medium
CN112015468B (zh) 一种接口文档处理方法、装置、电子设备以及存储介质
JP2022518645A (ja) 映像配信時効の決定方法及び装置
CN112988100A (zh) 视频的播放方法和装置
CN112115113A (zh) 数据存储系统、方法、装置、设备以及存储介质
JP7176188B2 (ja) 情報生成システム、情報生成方法、情報処理装置、プログラム
CN111694931A (zh) 要素获取方法及装置
CN113542802B (zh) 视频的转场方法和装置
US20210382918A1 (en) Method and apparatus for labeling data
CN110474905B (zh) 实体识别方法、装置、电子设备和存储介质
CN111695036A (zh) 内容推荐方法及装置
CN112733879A (zh) 针对不同场景的模型蒸馏方法和装置
CN113113017B (zh) 音频的处理方法和装置
CN113113016B (zh) 音频的处理方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant