CN116629236A - 一种待办事项提取方法、装置、设备及存储介质 - Google Patents
一种待办事项提取方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN116629236A CN116629236A CN202310651488.3A CN202310651488A CN116629236A CN 116629236 A CN116629236 A CN 116629236A CN 202310651488 A CN202310651488 A CN 202310651488A CN 116629236 A CN116629236 A CN 116629236A
- Authority
- CN
- China
- Prior art keywords
- text data
- backlog
- data
- original text
- processed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 44
- 238000000034 method Methods 0.000 claims abstract description 65
- 230000001502 supplementing effect Effects 0.000 claims abstract description 32
- 238000003058 natural language processing Methods 0.000 claims abstract description 31
- 238000012549 training Methods 0.000 claims description 80
- 238000012545 processing Methods 0.000 claims description 29
- 238000004590 computer program Methods 0.000 claims description 11
- 230000000153 supplemental effect Effects 0.000 claims description 6
- 230000009469 supplementation Effects 0.000 claims description 4
- 230000008569 process Effects 0.000 description 20
- 239000013589 supplement Substances 0.000 description 14
- 238000010586 diagram Methods 0.000 description 10
- 230000006854 communication Effects 0.000 description 9
- 238000004891 communication Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 5
- 238000013145 classification model Methods 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 5
- 230000009471 action Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 239000012634 fragment Substances 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 239000013307 optical fiber Substances 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/186—Templates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0499—Feedforward networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/14—Systems for two-way working
- H04N7/15—Conference systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Machine Translation (AREA)
Abstract
本申请公开了一种应用于自然语言处理技术领域的待办事项提取方法、装置、设备及存储介质。该方法先获取待处理文本数据,从待处理文本数据中识别得到一个或者多个与待办事项相关的原始文本数据,针对一个或者多个原始文本数据中的一个原始文本数据,确定该原始文本数据的信息量,并在原始文本数据的信息量不满足预设条件的情况下,利用待处理文本数据补充该原始文本数据。补充得到的该原始文本数据包括较为完整的待办事项的信息。最后,从该原始文本数据中提取得到待办事项数据。如此能够实现自动提取较为准确的待办事项数据,提高用户体验。
Description
技术领域
本申请涉及自然语言处理技术领域,具体涉及一种待办事项提取方法、装置、设备及存储介质。
背景技术
随着互联网技术的发展,用户越来越多地通过互联网与其他用户进行交流。例如,用户能够通过参与网络会议,或者利用文本与其他用户交流。在交流的过程中,可能会提及即将要执行的待办事项。
目前,负责处理待办事项的用户需要自行从交流的内容中整理得到待办事项的相关信息。用户提取待办事项的过程较为不便,效率较低。
发明内容
有鉴于此,本申请提供一种待办事项提取方法、装置、设备及存储介质,能够自动提取待处理文本数据中的待办事项,提高提取待办事项的效率。
本申请提供的技术方案如下:
第一方面,本申请提供一种待办事项提取方法,所述方法包括:获取待处理文本数据;从所述待处理文本数据中识别得到一个或者多个原始文本数据,所述原始文本数据与待办事项相关;针对所述一个或者多个原始文本数据中的一个原始文本数据,确定该原始文本数据的信息量;若该原始文本数据的信息量不满足预设条件,利用所述待处理文本数据补充该原始文本数据;从该原始文本数据中提取得到待办事项数据。
在一种可能的实现方式中,所述从所述待处理文本数据中识别得到一个或者多个原始文本数据,包括:利用语句识别模型,基于所述待处理文本数据得到一个或者多个原始文本数据。在一种可能的实现方式中,在所述利用语句识别模型,基于所述待处理文本数据得到一个或者多个原始文本数据之前,所述方法还包括:对所述待处理文本数据进行分句处理,得到多个待处理语句文本数据;所述利用语句识别模型,基于所述待处理文本数据得到一个或者多个原始文本数据,包括:利用所述语句识别模型,从所述多个待处理语句文本数据中识别得到一个或者多个原始文本数据。
在一种可能的实现方式中,所述语句识别模型是采用以下方式训练得到的:获取第一训练数据,所述第一训练数据包括正样本和负样本,所述正样本为包括待办事项的信息的文本数据,所述负样本是不包括待办事项的信息的文本数据;利用所述第一训练数据训练语句识别模型,直到满足第一条件为止,得到完成训练的语句识别模型。
在一种可能的实现方式中,所述确定该原始文本数据的信息量,包括:利用信息量识别模型,基于该原始文本数据得到该原始文本数据的信息量。
在一种可能的实现方式中,所述信息量识别模型是采用以下方式训练得到的:获取第二训练数据,所述第二训练数据包括训练文本数据和所述训练文本数据对应的标签,所述标签用于表示所述训练文本数据的信息量;利用所述第二训练数据训练信息量识别模型,直到满足第二条件为止,得到完成训练的信息量识别模型。
在一种可能的实现方式中,所述利用所述待处理文本数据补充该原始文本数据,包括:利用所述待处理文本数据中与该原始文本数据相邻的第一文本数据,补充该原始文本数据。
在一种可能的实现方式中,所述方法还包括:若补充后的该原始文本数据的满足补充条件,利用所述待处理文本数据中与该原始文本数据相邻的第二文本数据,补充该原始文本数据。
在一种可能的实现方式中,所述补充条件为该原始文本数据的字数小于字数阈值,或者,所述补充条件为该原始文本数据的语句结构不足。
在一种可能的实现方式中,所述从该原始文本数据中提取得到待办事项数据,包括:利用自然语言处理工具对该原始文本数据进行处理,得到待办事项数据。
在一种可能的实现方式中,所述利用自然语言处理工具对该原始文本数据进行处理,得到待办事项数据,包括:确定该原始文本数据的待办事项类型;基于所述待办事项类型对应的命令文本模板以及该原始文本数据,生成针对该原始文本数据的提取命令文本;将所述提取命令文本输入自然语言处理工具,得到所述自然语言处理工具输出的待办事项数据。
在一种可能的实现方式中,所述方法还包括:基于所述待办事项数据创建待办事项任务。
在一种可能的实现方式中,所述方法还包括:向所述待办事项任务的关联用户推送所述待办事项任务的信息。
第二方面,本申请提供一种待办事项提取装置,所述装置包括:获取单元,用于获取待处理文本数据;识别单元,用于从所述待处理文本数据中识别得到一个或者多个原始文本数据,所述原始文本数据与待办事项相关;确定单元,用于针对所述一个或者多个原始文本数据中的一个原始文本数据,确定该原始文本数据的信息量;补充单元,用于若该原始文本数据的信息量不满足预设条件,利用所述待处理文本数据补充该原始文本数据;提取单元,用于从该原始文本数据中提取得到待办事项数据。
在一种可能的实现方式中,所述识别单元,具体用于利用语句识别模型,基于所述待处理文本数据得到一个或者多个原始文本数据。
在一种可能的实现方式中,所述装置还包括:分句单元,用于对所述待处理文本数据进行分句处理,得到多个待处理语句文本数据;所述识别单元,具体用于利用所述语句识别模型,从所述多个待处理语句文本数据中识别得到一个或者多个原始文本数据。
在一种可能的实现方式中,所述语句识别模型是采用以下方式训练得到的:获取第一训练数据,所述第一训练数据包括正样本和负样本,所述正样本为包括待办事项的信息的文本数据,所述负样本是不包括待办事项的信息的文本数据;利用所述第一训练数据训练语句识别模型,直到满足第一条件为止,得到完成训练的语句识别模型。
在一种可能的实现方式中,所述确定单元,用于确定该原始文本数据的信息量,包括:所述确定单元,用于利用信息量识别模型,基于该原始文本数据得到该原始文本数据的信息量。
在一种可能的实现方式中,所述信息量识别模型是采用以下方式训练得到的:获取第二训练数据,所述第二训练数据包括训练文本数据和所述训练文本数据对应的标签,所述标签用于表示所述训练文本数据的信息量;利用所述第二训练数据训练信息量识别模型,直到满足第二条件为止,得到完成训练的信息量识别模型。
在一种可能的实现方式中,所述补充单元,用于利用所述待处理文本数据补充该原始文本数据,包括:补充单元,具体用于利用所述待处理文本数据中与该原始文本数据相邻的第一文本数据,补充该原始文本数据。
在一种可能的实现方式中,所述补充单元,还用于若补充后的该原始文本数据的满足补充条件,利用所述待处理文本数据中与该原始文本数据相邻的第二文本数据,补充该原始文本数据。
在一种可能的实现方式中,所述补充条件为该原始文本数据的字数小于字数阈值,或者,所述补充条件为该原始文本数据的语句结构不足。
在一种可能的实现方式中,所述提取单元,具体用于利用自然语言处理工具对该原始文本数据进行提取,得到待办事项数据。
在一种可能的实现方式中,所述提取单元,具体用于利用自然语言处理工具对该原始文本数据进行提取,得到待办事项数据,包括:所述提取单元,具体用于确定该原始文本数据的待办事项类型;基于所述待办事项类型对应的命令文本模板以及该原始文本数据,生成针对该原始文本数据的提取命令文本;将所述提取命令文本输入自然语言处理工具,得到所述自然语言处理工具输出的待办事项数据。
在一种可能的实现方式中,所述装置还包括:创建单元,用于基于所述待办事项数据创建待办事项任务。
在一种可能的实现方式中,所述装置还包括:推送单元,用于向所述待办事项任务的关联用户推送所述待办事项任务的信息。
第三方面,本申请提供一种电子设备,包括:一个或多个处理器;存储装置,其上存储有一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现第一方面所述的方法。
第四方面,本申请提供一种计算机可读介质,其上存储有计算机程序,其中,所述程序被处理器执行时实现第一方面所述的方法。
第五方面,本申请提供一种计算机程序产品,所述计算机程序产品在设备上运行时,使得所述设备执行第一方面所述的方法。
由此可见,本申请具有如下有益效果:
本申请提供一种待办事项提取方法、装置、设备及存储介质,该方法先获取待处理文本数据,从待处理文本数据中识别得到一个或者多个与待办事项相关的原始文本数据,针对一个或者多个原始文本数据中的一个原始文本数据,确定该原始文本数据的信息量,并在该原始文本数据的信息量不满足预设条件的情况下,利用待处理文本数据补充该原始文本数据。补充得到的该原始文本数据包括较为完整的待办事项的信息。最后,从该原始文本数据中提取得到待办事项数据。如此能够实现自动提取较为准确的待办事项数据,提升用户体验。
附图说明
图1为本申请实施例提供的一种待办事项提取方法的场景示意图;
图2为本申请实施例提供的一种待办事项提取方法的流程示意图;
图3为本申请实施例提供的一种待办事项提取的示意图;
图4为本申请实施例提供的一种待办事项提取装置的结构示意图;
图5为本申请实施例提供的一种电子设备的基本结构的示意图。
具体实施方式
为了便于理解和解释本申请实施例提供的技术方案,下面将先对本申请的背景技术进行说明。
需要说明的是,除非另外定义,本申请实施例使用的技术术语或者科学术语应当为本申请所属领域内具有一般技能的人士所理解的通常意义。本申请实施例中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系,当被描述对象的绝对位置改变后,则该相对位置关系也可能相应地改变。
目前,用户能够采取多种方式与其他用户沟通待办事项。用户会对需要完成的待办事项进行讨论,并对待办事项进行分配,确定需要处理待办事项的用户。例如,在网络会议的场景下,用户能够通过网络会议沟通待办事项。在沟通的过程中,处理待办事项的用户需要记录待办事项的信息,以便后续基于记录的信息完成待办事项。或者,用户需要查看会议记录,从会议记录中获取待办事项。又例如,在聊天交流的场景下,用户需要阅读聊天文本整理待办事项。如此,处理待办事项的用户需要自己整理待办事项。用户整理待办事项的过程较为不便,并且整理待办事项的效率较低。
基于此,本申请实施例提供一种待办事项提取方法、装置、设备及存储介质,该方法先获取待处理文本数据,从待处理文本数据中识别得到一个或者多个与待办事项相关的原始文本数据,针对一个或者多个原始文本数据中的一个原始文本数据,确定该原始文本数据的信息量,并在该原始文本数据的信息量不满足预设条件的情况下,利用待处理文本数据补充该原始文本数据。补充得到的该原始文本数据包括较为完整的待办事项的信息。最后,从该原始文本数据中提取得到待办事项数据。如此能够实现自动提取较为准确的待办事项数据,提高用户体验。
为了便于理解本申请实施例提供的技术方案,下面结合网络会议场景对本申请实施例提供的待办事项提取方法所应用的场景进行说明。
需要说明的是,图1所示的网络会议场景仅是本申请的实施方式可以在其中得以实现的一个场景示例。本申请实施方式的适用范围不受到该网络会议场景任何方面的限制。本申请实施方式能够应用于任何可行的场景中。
参见图1所示,用户101使用对应的客户端102参与网络会议。客户端102与服务端103连接。服务端103与其他服务端通过网络连接。客户端102采集用户的语音和画面,生成会议音视频数据,并向服务端103发送会议音视频数据。服务端103与其他服务端发送客户端102生成的会议音视频数据,并向客户端102发送其他服务端生成的会议音视频数据。客户端102基于获取的会议音视频数据向用户提供参与网络会议的服务。服务端103在网络会议结束后或者在网络会议进行的过程中,先将会议音视频数据包括的会议音频数据转换为待处理文本数据。服务端103对待处理文本数据进行文本识别,从待处理文本数据中识别得到一个或者多个原始文本数据。原始文本数据包括待办事项的信息。服务端103再对原始文本数据进行信息量的分析,确定各个原始文本数据的信息量。如果原始文本数据的信息量不足,则说明有可能无法从原始文本数据中提取到完整的待办事项的信息。利用待处理文本数据对信息量不足的原始文本数据进行补充。最后,服务端103从原始文本数据中提取得到待办事项数据。服务端103能够向客户端102发送待办事项数据,以便客户端102向用户显示待办事项数据。或者,服务端103基于待办事项数据,自动创建待办事项任务,以便提醒用户执行待办事项任务。如此无需用户手动记录或者查询待办事项,提高用户处理待办事项的效率。
为了便于理解本申请实施例提供的待办事项提取方法,下面结合附图对本申请实施例提供的待办事项提取方法进行介绍。
参见图2所示,该图为本申请实施例提供的一种待办事项提取方法的流程示意图,包括S201-S205。
S201:获取待处理文本数据。
待处理文本数据是可能包括待办事项的内容的文本数据。本申请实施例不限定待处理文本数据的来源。作为一种示例,待处理文本数据能够是采用语音识别技术对会议语音数据处理得到的会议文本数据。例如采用ASR(Automatic Speech Recognition,自动语音识别技术)对会议语音数据进行识别,得到待处理文本数据。作为另一种示例,待处理文本数据还能够是由用户输入需要进行待办事项提取的文本数据。本申请实施例对此不做限定。
可以理解的是,若所获取的待处理文本数据来源于多媒体会议,可以在会议结束后基于会议内容生成待处理文本数据,或者,也可以在会议进行过程中,伴随着会议内容实时或者准实时地生成待处理文本数据。
在一些可能的实现方式中,在获取待处理文本数据后,先对待处理文本数据进行预处理。作为一种示例,预处理为替换关键词。待处理文本数据中可能包括需要替换的词汇。例如,为了保护用户的个人隐私,将用户的用户名称替换为通用名称。例如将具体的用户名称替换为用户序号。不同的用户名称对应不同的通用名称,以便区分不同的用户。
S202:从待处理文本数据中识别得到一个或者多个原始文本数据。
在获取待处理文本数据后,先识别待处理文本数据包括的原始文本数据。原始文本数据是与待办事项相关,包括待办事项的信息的文本数据。
本申请实施例不限定从待处理文本数据识别得到原始文本数据的方法。在一种可能的实现方式中,对待处理文本数据包括的与待办事项相关的词汇进行识别。将识别得到的与待办事项相关的词汇所属的语句作为原始文本数据。在另一种可能的实现方式中,预先训练能够识别原始文本数据的模型,再将待处理文本数据输入模型中,得到模型输出的原始文本数据。本申请实施例提供一种利用语句识别模型识别得到原始文本数据的具体实现方式,请参见下文。
本申请实施例也不限定原始文本数据的划分方式以及数量。在一些可能的实现方式中,按照标点符号对待处理文本数据进行划分。每个语句为一个单位文本数据。在另一些可能的实现方式中,待处理文本数据为会议文本数据。可以按照发言的用户对待处理文本数据进行划分。例如,每次每个用户的发言的文本数据为一个单位文本数据。从待处理文本数据识别得到的每个原始文本数据为一个单位文本数据。待处理文本数据识别得到的原始文本数据的数量能够是一个或者多个。
S203:针对一个或者多个原始文本数据中的一个原始文本数据,确定该原始文本数据的信息量。
在原始文本数据的数量为一个的情况下,对该原始文本数据进行处理。为了便于描述,在下文中,为了区别于从待处理文本中提取出的一个或者多个原始文本数据中的其它原始文本数据,将该原始文本数据称为目标文本数据。在原始文本数据的数量为多个的情况下,针对多个原始文本数据中的一个原始文本数据进行处理。同样的,为了便于描述,在下文中,将该原始文本数据称为目标文本数据。
信息量用于衡量文本数据包括的待办事项的信息的多少。可以理解的是,以待处理文本数据为会议文本数据为例,在一些情况下,多个用户需要多次沟通才能确定待办事项。对应的,待办事项的信息分布在多个文本数据中。一个文本数据所包括的信息量可能不足,难以仅基于一个文本数据分析得到完整的待办事项数据。
对目标文本数据进行信息量的分析。本申请实施例不限定分析目标文本数据的信息量的方式。在一种可能的实现方式中,预先训练用于确定信息量的信息量识别模型。利用信息量识别模型确定目标文本数据的信息量。本申请实施例提供一种利用信息量识别模型确定目标文本数据的信息量的具体实现方式,请参见下文。在另一种可能的实现方式中,能够识别目标文本数据包括的与待办事项相关的词汇,基于识别得到的词汇的数量确定目标文本数据的信息量。
S204:若该原始文本数据的信息量不满足预设条件,利用待处理文本数据补充该原始文本数据。
预设条件用于确定该原始文本数据,也就是目标文本数据的信息量足够。预设条件能够基于提取待办事项的需要进行设置,本申请实施例不限定预设条件的具体内容。作为一种示例,预设条件为该原始文本数据的信息量大于或者等于预设信息量阈值。
如果目标文本数据的信息量满足预设条件,则说明目标文本数据的信息量足够。在目标文本数据的信息量满足预设条件的情况下,能够对目标文本数据进行待办事项数据的提取,得到信息量较为完整的待办事项数据。
如果目标文本数据的信息量不满足预设条件,则说明目标文本数据的信息量不足,需要增加文本数据。利用待处理文本数据补充目标文本数据。在一些可能的实现方式中,目标文本数据的上下文与待办事项的联系较多,利用待处理文本数据中,目标文本数据的上下文的文本数据补充目标文本数据。作为一种示例,本申请实施例提供一种利用待处理文本数据补充该原始文本数据,也就是目标文本数据的具体实现方式,请参见下文。在另一些可能的实现方式中,识别目标文本数据包括的与待办事项的词汇。利用待处理文本数据中包括此类词汇的文本数据补充目标文本数据。补充后的目标文本数据包括多个单位文本数据。
S205:从该原始文本数据中提取得到待办事项数据。
目标文本数据,也就是该原始文本数据可能包括其他与待办事项不相关的文本数据。对目标文本数据进行提取处理,从目标文本数据中提取得到待办事项数据。
在一种可能的实现方式中,识别目标文本数据包括的与待办事项相关的词汇,利用识别得到的词汇组成待办事项数据。在另一种可能的实现方式中,利用自然语言处理工具对目标文本数据进行处理,得到总结后的待办事项数据。本申请实施例提供一种利用自然语言处理工具对目标文本数据进行处理,得到待办事项数据的具体实现方式,请参见下文。
需要说明的是,本申请实施例不限定待办事项数据的类型。作为一种示例,从目标文本数据中提取到的待办事项数据是文本数据。作为另一种示例,从目标文本数据中提取得到的待办事项数据是与目标文本数据相关的音频数据,或者是图像数据,或者是视频数据。
从目标文本数据中提取得到的待办事项数据能够向与待办事项关联的用户展示,或者是基于待办事项数据,为与待办事项关联的用户建立待办事项的任务。
与待办事项关联的用户,能够是提供待处理文本数据的用户,或者是与待处理文本数据关联的用户,或者是基于提取得到的待办事项数据确定的需要处理待办事项的用户。例如,与待处理文本数据关联的用户能够是待处理文本数据中包括的用户名称所对应的用户。需要处理待办事项的用户,能够是待办事项数据包括的用户名称所对应的用户。
在一种实现方式中,为保护用户隐私,预先过滤待处理文本数据包括具体的用户名称,并建立与用户名称对应的通用名称。使用与用户名称对应的通用名称替换待处理文本数据中包括的用户名称。在处理得到待办事项数据后,能够基于待办事项数据包括的通用名称,确定该通用名称对应的用户名称。再将该用户名称对应的用户作为需要处理待办事项的用户。
作为一种示例,在得到待办事项数据后,向用户显示待办事项数据,以便用户了解分配的待办事项。本申请实施例不限定触发向用户显示待办事项数据的方式。在一种可能的实现方式中,在提取得到待办事项数据后,自动向用户显示待办事项数据。在另一种可能的实现方式中,用户触发生成显示待办事项的指令。响应于获取显示待办事项的指令,向用户显示待办事项数据。
需要说明的是,如果待办事项数据包括用于替换用户名称的通用名称,则在向用户显示待办事项数据之前,需要将通用名称替换为该通用名称对应的用户名称。如此便于查看待办事项数据的用户确定与待办事项相关的具体用户。
作为另一种示例,基于生成的待办事项数据创建待办事项任务。如此能够实现自动创建待办事项任务,无需用户手动操作添加待办事项任务,提高处理待办事项的效率。
进一步的,在建立待办事项任务后,向待办事项任务关联的用户推送待办事项任务的信息。例如,在网络会议场景中,向用户提供网络会议服务的客户端还具有待办事项任务管理功能。客户端基于待办事项数据创建待办事项任务,并向用户推送已经建立的待办事项任务的信息。待办事项任务的信息例如包括任务主题、任务内容、相关用户以及任务完成时间。客户端能够采用弹窗方式、发送邮件或者聊天对话的方式向用户推送待办事项任务的信息。
基于上述S201-S205的相关内容可知,如此能够从待处理文本数据自动提取得到待办事项数据,无需用户手动记录或者手动查询待办事项的信息,便于分配待办事项,提高处理待办事项的效率,提升用户的使用体验。
在一些可能的实现方式中,预先训练语句识别模型。语句识别模型用于识别待处理文本数据包括的原始文本数据。利用语句识别模型能够从待处理文本数据中确定与待办事项相关的原始文本数据。下面对语句识别模型的训练过程以及利用语句识别模型识别得到原始文本数据的过程进行介绍。
本申请实施例不限定语句识别模型的模型架构。作为一种示例,语句识别模型采用BERT(Bidirectional Encoder Representations from Transformers,基于变换器的双向编码器表示技术)模型架构。
获取第一训练数据。第一训练数据包括正样本和负样本。其中,正样本为包括待办事项的信息的文本数据,也就是与待办事项有关的文本数据。负样本是不包括待办事项的信息的文本数据,也就是与待办事项无关的文本数据。正样本和负样本能够是预先构建的。
利用第一训练数据训练语句识别模型,直到满足第一条件为止,得到完成训练的语句识别模型。其中,第一条件是确定语句识别模型完成训练的条件。例如,第一条件为训练次数达到次数阈值。又例如,第一条件为语句识别模型的准确程度达到预设要求。
对应的,利用完成训练的语句识别模型,基于待处理文本数据得到一个或者多个原始文本数据。将待处理文本数据作为语句识别模型的输入数据,得到语句识别模型的输出结果,语句识别模型的输出结果包括待处理文本数据的标签。基于待处理文本数据的标签能够确定原始文本数据。
参见图3所示,该图为本申请实施例提供的一种待办事项提取的示意图。将待处理文本数据输入语句识别模型中,得到语句识别模型的输出结果。基于语句识别模型的输出结果,能够确定待处理文本数据包括的一个或者多个原始文本数据。
在一些情况中,第一训练数据包括的正样本和负样本均是以语句为单位的,也就是说,正样本和负样本均是单独的语句。在将待处理文本数据输入语句识别模型之前,先对待处理文本数据进行分句处理,得到多个待处理语句文本数据。本申请实施例不限定对待处理文本数据进行分句的实现方式。例如,能够使用分句工具对待处理文本数据进行分句。又例如,基于待处理文本数据包括的标点符号,比如句号、问号、感叹号等用于表示语句结束的标点符号,对待处理文本数据进行分句。将分句后得到的多个待处理语句文本数据分别作为语句识别模型的输入,得到语句识别模型的输出结果。输出结果包括每个待处理语句文本数据对应的标签。基于每个待处理语句文本数据对应的标签能够确定原始文本数据。
在一些实现方式中,目标文本数据的信息量是利用信息量识别模型确定的。信息量识别模型用于识别目标文本数据包括的信息量。下面对信息量识别模型的训练过程以及利用信息量识别模型确定目标文本数据的信息量的过程进行介绍。
本申请实施例不限定信息量识别模型的模型架构。作为一种示例,信息量识别模型采用BERT(Bidirectional Encoder Representations from Transformers,基于变换器的双向编码器表示技术)模型架构。
获取第二训练数据。第二训练数据包括训练文本数据和训练文本数据对应的标签。标签用于表示训练文本数据的信息量。例如,标签的取值包括0和1。取值为0的标签表示训练文本数据没有与待办事项相关的信息量。取值为1的标签表示训练文本数据具有与待办事项相关的信息量。第二训练数据能够是预先基于训练文本数据具有的待办事项的信息量标注的。
利用第二训练数据训练信息量识别模型,直到满足第二条件为止,得到完成训练的信息量识别模型。其中,第二条件是确定信息量识别模型完成训练的条件。例如,第二条件为训练次数达到次数阈值。又例如,第二条件为信息量识别模型的准确程度达到预设要求。
利用完成训练的信息量识别模型,基于目标文本数据得到目标文本数据的信息量。将目标文本数据输入信息量识别模型中,得到信息量识别模型输出的目标文本数据的信息量。
参见图3所示,将目标文本数据输入信息量识别模型中,得到信息量识别模型输出的目标文本数据的信息量。
在确定目标文本数据的信息量不满足预设条件的情况下,利用待处理文本数据补充目标文本数据。
参见图3所示,在得到目标文本数据的信息量后,判断目标文本数据的信息量是否满足预设条件。如果目标文本数据的信息量满足预设条件,则进行后续处理。如果目标文本数据的信息量不满足预设条件,利用待处理文本数据补充目标文本数据。
在一种可能的实现方式中,利用待处理文本数据中与目标文本数据相邻的第一文本数据补充目标文本数据。
本申请实施例不限定确定第一文本数据的方式。作为一种示例,第一文本数据的范围较小为待处理文本数据中,目标文本数据的上文的前一个文本数据以及目标文本数据的下文的后一个文本数据。
例如,目标文本数据为“说话人1:你把处理结果发给我。”。目标文本数据的信息量为0。利用目标文本数据的上文的前一个文本数据以及目标文本数据的下文的后一个文本数据补充目标文本数据。补充后的目标文本数据为:
说话人11:我要处理这次数据采集得到的数据。
说话人1:你把处理结果发给我。
说话人11:发到你的邮箱。
需要说明的是,上述第一文本数据的确定方式能够是预先基于补充的需要配置的。本领域技术人员能够基于补充目标文本数据的需要确定第一文本数据。比如,第一文本数据的范围为待处理文本数据中,目标文本数据的上文的前五个文本数据以及目标文本数据的下文的后两个文本数据。
在一些可能的实现方式中,补充后的目标文本数据仍可能存在内容较少的问题。判断补充后的目标文本数据是否满足补充条件。补充条件是预先设置的用于确定是否继续对目标文本数据进行补充的条件。
本申请实施例不限定补充条件的具体内容。作为一种示例,在一些场景中,目标文本数据的字数较少时,目标文本数据包括的有关待办事项的信息量不足的概率较大。对应的,补充条件为该原始文本数据,也就是目标文本数据的字数小于字数阈值。字数阈值为目标文本数据需要达到的最少的字数。如果确定补充后的目标文本数据的字数小于字数阈值,则说明补充后的目标文本数据的字数较少,目标文本数据可能仍存在着包括的信息量不足的问题。
作为另一种示例,能够对目标文本数据的语句结构进行分析。在一些场景中,包括较为完整的待办事项的信息量的语句至少包括主语、谓语和宾语这三种语句结构。其中,主语为执行待办事项的用户。谓语为执行待办事项的方式。宾语为待办事项的具体内容。此外,还可能包括状语。状语为执行待办事项的时间或者位置。如果目标文本数据的语句结构不足,例如缺少主语,可能无法明确执行待办事项的用户,目标文本数据可能仍存在着包括的信息量不足的问题。
在基于补充条件确定目标文本数据存在着包括的信息量不足的问题的情况下,利用待处理文本数据中与目标文本数据相邻的第二文本数据再次补充目标文本数据。本申请实施例不限定确定第二文本数据的方式。作为一种示例,第二文本数据为待处理文本数据中,目标文本数据的上文的前一文本数据以及目标文本数据的下文的后一文本数据。在一些实现方式中,第二文本数据的数量要小于第一文本数据的数量。也就是说,再次补充的文本数据的数量小于第一次补充的文本数据的数量,从而避免过度增加目标文本数据,造成目标文本数据的冗余。
基于补充条件能够对信息量可能不足的目标文本数据进一步进行判断,及时发现信息量不足的目标文本数据,并对目标文本数据进行再次的补充。如此能够确保补充后的目标文本数据包括的信息量较为充足,从而基于目标文本数据提取较为完整的待办事项数据。
需要说明的是,在利用第二文本数据补充目标文本数据后,再判断补充后的目标文本数据是否满足补充条件。如果补充后的目标文本数据的字数不满足补充条件,再次从待处理文本数据中确定第二文本数据补充目标文本数据。如此重复操作,直到补充后的目标文本数据满足补充条件为止。
在一些可能的实现方式中,目标文本数据包括与待办事项无关的信息。利用自然语言处理工具从目标文本数据提取得到待办事项数据。自然语言处理工具能够对目标文本数据进行总结,精炼与待办事项相关的信息。本申请实施例不限定自然语言处理工具的具体类型。例如,自然语言处理工具为ChatGPT(Chat Generative Pre-trainedTransformer,聊天生成预训练转换器)。
在使用自然语言处理工具对从目标文本数据提取待办事项数据时,需要向自然语言处理工具输入对目标文本数据进行处理的命令。
在一些可能的实现方式中,对目标文本数据处理的命令是使用预先配置的通用文本模板生成的。
通用文本模板例如为“下面是一个文本片段,请你结合该内容总结成一条待办事项。要求:1.需要输出具体的待办事项;2.输出格式必须为“待办事项:xx”,待办事项的长度不大于40个字”。
将通用文本模板与目标文本数据进行拼接,得到对目标文本数据处理的命令。
作为一种示例,目标文本数据为“说话人1:我想要看实验数据的分析结果。说话人2:好的,我整理之后发给你”,生成的对目标文本数据处理的命令为:
下面是一个文本片段,请你结合该内容总结成一条待办事项。要求:1.需要输出具体的待办事项;2.输出格式必须为“待办事项:xx”,待办事项的长度不大于40个字:
文本片段如下:
说话人1:我想要看实验数据的分析结果。
说话人2:好的,我整理之后发给你。
在另一些可能的实现方式中,目标文本数据所包括的待办事项具有不同的类型。不同的待办事项类型具有对应的预先配置的命令文本模板。
在确定目标文本数据后,确定目标文本数据的待办事项类型。待办事项类型能够是预先基于可能处理的待办事项进行分类确定的。作为一种示例,参见表1所示,表1为本申请实施例提供的待办事项类型。
表1
表1所示的待办事项类型包括一级类型、二级类型和三级类型。其中,二级类型是对一级类型的细分类型。三级类型是对二级类型的细分类型。
事件类型所包括的每个二级类型具有对应的命令文本模板。例如,目标文本数据属于“事件”类型中的“约”类型。“约”类型对应的命令文本模板为“下面是一个文本片段,请你帮我总结需要约的内容,并结合该内容总结成一条待办事项”。
处理任务提及信息类型包括的每个三级类型具有对应的命令文本模板。例如,目标文本数据属于“任务”类型中的“处理任务提及信息”类型所包括的“汇报”类型。“汇报”类型对应的命令文本模板为“请基于下面的文本片段帮我总结需要汇报的内容,并结合该内容总结成一条待办事项”。
如果目标文本数据为任务类型包括的其他类型,则使用通用文本模板生成提取命令文本。
作为一种示例,目标文本数据的待办事项类型能够是利用分类模型确定的。分类模型预先利用包括样本文本和样本文本对应的类型标签的训练数据训练得到。
参见图3所示,将信息量满足预设条件的目标文本数据,或者补充后的目标文本数据输入分类模型中,得到分类模型输出的目标文本数据的待办事项类型。
作为另一种示例,对目标文本数据进行类型词汇的检测。例如,目标文本数据包括“看”,在检测到“看”后,将目标文本数据的待办事项类型确定为“看”类型。
待办事项类型对应的命令文本模板包括与待办事项类型相关的命令文本。作为一种示例,待办事项类型为看类型,对应的命令文本模板为“下面是一个文本片段,请你帮我总结需要看的内容,并结合该内容总结成一条待办事项。要求:1.需要输出具体的待办事项;2.输出格式必须为“待办事项:xx”,待办事项的长度不大于40个字”。其中,命令文本模板包括的“请你帮我总结需要看的内容”是与待办事项类型相关的命令文本。
基于待办事项类型对应的命令文本模板以及目标文本数据,生成针对目标文本数据的提取命令文本。
参见图3所示,基于分类模型输出的目标文本数据的待办事项类型,生成针对目标文本数据的提取命令文本。
以上述命令文本模板以及目标文本数据为例,将命令文本模板与目标文本数据进行拼接,得到对目标文本数据处理的命令。生成的对目标文本数据处理的命令为:
下面是一个文本片段,请你帮我总结需要看一下的内容,并结合该内容总结成一条待办事项。要求:1.需要输出具体的待办事项;2.输出格式必须为“待办事项:xx”,待办事项的长度不大于40个字;
文本片段如下:
说话人1:我想要看实验数据的分析结果。
说话人2:好的,我整理之后发给你。
将针对目标文本数据的提取命令文本输入自然语言处理工具,得到自然语言处理工具输出的待办事项数据。
参见图3所示,将针对目标文本数据的提取命令文本输入自然语言处理工具,得到待办事项数据。
以上述示例为例,自然语言处理工具输出的待办事项数据为“待办事项:整理实验数据的分析结果并发给说话人1查看”。
利用自然语言处理工具处理目标文本数据,使得生成的待办事项数据更加流畅通顺,便于用户查看。
基于上述方法实施例提供的一种待办事项提取方法,本申请实施例还提供了一种待办事项提取装置,下面将结合附图对待办事项提取装置进行说明。
参见图4所示,该图为本申请实施例提供的一种待办事项提取装置的结构示意图。如图4所示,该待办事项提取装置包括:
获取单元401,用于获取待处理文本数据;
识别单元402,用于从所述待处理文本数据中识别得到一个或者多个原始文本数据,所述原始文本数据与待办事项相关;
确定单元403,用于针对所述一个或者多个原始文本数据中的一个原始文本数据,确定该原始文本数据的信息量;
补充单元404,用于若该原始文本数据的信息量不满足预设条件,利用所述待处理文本数据补充该原始文本数据;
提取单元405,用于从该原始文本数据中提取得到待办事项数据。
在一种可能的实现方式中,所述识别单元402,具体用于利用语句识别模型,基于所述待处理文本数据得到一个或者多个原始文本数据。
在一种可能的实现方式中,所述装置还包括:
分句单元,用于对所述待处理文本数据进行分句处理,得到多个待处理语句文本数据;
所述识别单元402,具体用于利用所述语句识别模型,从所述多个待处理语句文本数据中识别得到一个或者多个原始文本数据。
在一种可能的实现方式中,所述语句识别模型是采用以下方式训练得到的:
获取第一训练数据,所述第一训练数据包括正样本和负样本,所述正样本为包括待办事项的信息的文本数据,所述负样本是不包括待办事项的信息的文本数据;
利用所述第一训练数据训练语句识别模型,直到满足第一条件为止,得到完成训练的语句识别模型。
在一种可能的实现方式中,所述确定单元403,用于确定该原始文本数据的信息量,包括:
所述确定单元403,用于利用信息量识别模型,基于该原始文本数据得到该原始文本数据的信息量。
在一种可能的实现方式中,所述信息量识别模型是采用以下方式训练得到的:
获取第二训练数据,所述第二训练数据包括训练文本数据和所述训练文本数据对应的标签,所述标签用于表示所述训练文本数据的信息量;
利用所述第二训练数据训练信息量识别模型,直到满足第二条件为止,得到完成训练的信息量识别模型。
在一种可能的实现方式中,所述补充单元404,用于利用所述待处理文本数据补充该原始文本数据,包括:
补充单元404,具体用于利用所述待处理文本数据中与该原始文本数据相邻的第一文本数据,补充该原始文本数据。
在一种可能的实现方式中,所述补充单元404,还用于若补充后的该原始文本数据的满足补充条件,利用所述待处理文本数据中与该原始文本数据相邻的第二文本数据,补充该原始文本数据。
在一种可能的实现方式中,所述补充条件为该原始文本数据的字数小于字数阈值,或者,所述补充条件为该原始文本数据的语句结构不足。
在一种可能的实现方式中,所述提取单元405,具体用于利用自然语言处理工具对该原始文本数据进行提取,得到待办事项数据。
在一种可能的实现方式中,所述提取单元405,具体用于利用自然语言处理工具对该原始文本数据进行提取,得到待办事项数据,包括:
所述提取单元405,具体用于确定该原始文本数据的待办事项类型;基于所述待办事项类型对应的命令文本模板以及该原始文本数据,生成针对该原始文本数据的提取命令文本;将所述提取命令文本输入自然语言处理工具,得到所述自然语言处理工具输出的待办事项数据。
在一种可能的实现方式中,所述装置还包括:
创建单元,用于基于所述待办事项数据创建待办事项任务。
在一种可能的实现方式中,所述装置还包括:
推送单元,用于向所述待办事项任务的关联用户推送所述待办事项任务的信息。
基于上述方法实施例提供的一种待办事项提取方法,本申请还提供一种电子设备,包括:一个或多个处理器;存储装置,其上存储有一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上述任一实施例所述的待办事项提取方法。
下面参考图5,其示出了适于用来实现本申请实施例的电子设备500的结构示意图。本申请实施例中的终端设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(Personal Digital Assistant,个人数字助理)、PAD(portable androiddevice,平板电脑)、PMP(Portable Media Player,便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV(television,电视机)、台式计算机等等的固定终端。图5示出的电子设备仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图5所示,电子设备500可以包括处理装置(例如中央处理器、图形处理器等)501,其可以根据存储在只读存储器(ROM)502中的程序或者从存储装置508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。在RAM503中,还存储有电子设备500操作所需的各种程序和数据。处理装置501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。
通常,以下装置可以连接至I/O接口505:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置508;包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置507;包括例如磁带、硬盘等的存储装置508;以及通信装置509。通信装置509可以允许电子设备500与其他设备进行无线或有线通信以交换数据。虽然图5示出了具有各种装置的电子设备500,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。
特别地,根据本申请的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本申请的实施例包括一种计算机程序产品,其包括承载在非暂态计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信装置509从网络上被下载和安装,或者从存储装置508被安装,或者从ROM502被安装。在该计算机程序被处理装置501执行时,执行本申请实施例的方法中限定的上述功能。
本申请实施例提供的电子设备与上述实施例提供的待办事项提取方法属于同一发明构思,未在本实施例中详尽描述的技术细节可参见上述实施例,并且本实施例与上述实施例具有相同的有益效果。
基于上述方法实施例提供的一种待办事项提取方法,本申请实施例提供了一种计算机存储介质,其上存储有计算机程序,其中,所述程序被处理器执行时实现如上述任一实施例所述的待办事项提取方法。
需要说明的是,本申请上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
在一些实施方式中,客户端、服务器可以利用诸如HTTP(Hyper Text TransferProtocol,超文本传输协议)之类的任何当前已知或未来研发的网络协议进行通信,并且可以与任意形式或介质的数字数据通信(例如,通信网络)互连。通信网络的示例包括局域网(“LAN”),广域网(“WAN”),网际网(例如,互联网)以及端对端网络(例如,ad hoc端对端网络),以及任何当前已知或未来研发的网络。
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。
上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备执行上述待办事项提取方法。
可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码,上述程序设计语言包括但不限于面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。其中,单元/模块的名称在某种情况下并不构成对该单元本身的限定,例如,语音数据采集模块还可以被描述为“数据采集模块”。
本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如,非限制性地,可以使用的示范类型的硬件逻辑部件包括:现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑设备(CPLD)等等。
在本申请的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
需要说明的是,本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统或装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
应当理解,在本申请中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:只存在A,只存在B以及同时存在A和B三种情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a和b和c”,其中a,b,c可以是单个,也可以是多个。
还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (16)
1.一种待办事项提取方法,其特征在于,所述方法包括:
获取待处理文本数据;
从所述待处理文本数据中识别得到一个或者多个原始文本数据,所述原始文本数据与待办事项相关;
针对所述一个或者多个原始文本数据中的一个原始文本数据,确定该原始文本数据的信息量;
若该原始文本数据的信息量不满足预设条件,利用所述待处理文本数据补充该原始文本数据;
从该原始文本数据中提取得到待办事项数据。
2.根据权利要求1所述的方法,其特征在于,所述从所述待处理文本数据中识别得到一个或者多个原始文本数据,包括:
利用语句识别模型,基于所述待处理文本数据得到一个或者多个原始文本数据。
3.根据权利要求2所述的方法,其特征在于,在所述利用语句识别模型,基于所述待处理文本数据得到一个或者多个原始文本数据之前,所述方法还包括:
对所述待处理文本数据进行分句处理,得到多个待处理语句文本数据;
所述利用语句识别模型,基于所述待处理文本数据得到一个或者多个原始文本数据,包括:
利用所述语句识别模型,从所述多个待处理语句文本数据中识别得到一个或者多个原始文本数据。
4.根据权利要求2或3所述的方法,其特征在于,所述语句识别模型是采用以下方式训练得到的:
获取第一训练数据,所述第一训练数据包括正样本和负样本,所述正样本为包括待办事项的信息的文本数据,所述负样本是不包括待办事项的信息的文本数据;
利用所述第一训练数据训练语句识别模型,直到满足第一条件为止,得到完成训练的语句识别模型。
5.根据权利要求1所述的方法,其特征在于,所述确定该原始文本数据的信息量,包括:
利用信息量识别模型,基于该原始文本数据得到该原始文本数据的信息量。
6.根据权利要求5所述的方法,其特征在于,所述信息量识别模型是采用以下方式训练得到的:
获取第二训练数据,所述第二训练数据包括训练文本数据和所述训练文本数据对应的标签,所述标签用于表示所述训练文本数据的信息量;
利用所述第二训练数据训练信息量识别模型,直到满足第二条件为止,得到完成训练的信息量识别模型。
7.根据权利要求1所述的方法,其特征在于,所述利用所述待处理文本数据补充该原始文本数据,包括:
利用所述待处理文本数据中与该原始文本数据相邻的第一文本数据,补充该原始文本数据。
8.根据权利要求7所述的方法,其特征在于,所述方法还包括:
若补充后的该原始文本数据的满足补充条件,利用所述待处理文本数据中与该原始文本数据相邻的第二文本数据,补充该原始文本数据。
9.根据权利要求8所述的方法,其特征在于,所述补充条件为该原始文本数据的字数小于字数阈值,或者,所述补充条件为该原始文本数据的语句结构不足。
10.根据权利要求1所述的方法,其特征在于,所述从该原始文本数据中提取得到待办事项数据,包括:
利用自然语言处理工具对该原始文本数据进行处理,得到待办事项数据。
11.根据权利要求10所述的方法,其特征在于,所述利用自然语言处理工具对该原始文本数据进行处理,得到待办事项数据,包括:
确定该原始文本数据的待办事项类型;
基于所述待办事项类型对应的命令文本模板以及该原始文本数据,生成针对该原始文本数据的提取命令文本;
将所述提取命令文本输入自然语言处理工具,得到所述自然语言处理工具输出的待办事项数据。
12.根据权利要求1所述的方法,其特征在于,所述方法还包括:
基于所述待办事项数据创建待办事项任务。
13.根据权利要求12所述的方法,其特征在于,所述方法还包括:
向所述待办事项任务的关联用户推送所述待办事项任务的信息。
14.一种待办事项提取装置,其特征在于,所述装置包括:
获取单元,用于获取待处理文本数据;
识别单元,用于从所述待处理文本数据中识别得到一个或者多个原始文本数据,所述原始文本数据与待办事项相关;
确定单元,用于针对所述一个或者多个原始文本数据中的一个原始文本数据,确定该原始文本数据的信息量;
补充单元,用于若该原始文本数据的信息量不满足预设条件,利用所述待处理文本数据补充该原始文本数据;
提取单元,用于从该原始文本数据中提取得到待办事项数据。
15.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,其上存储有一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-13中任一所述的方法。
16.一种计算机可读介质,其特征在于,其上存储有计算机程序,其中,所述程序被处理器执行时实现如权利要求1-13中任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310651488.3A CN116629236A (zh) | 2023-06-02 | 2023-06-02 | 一种待办事项提取方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310651488.3A CN116629236A (zh) | 2023-06-02 | 2023-06-02 | 一种待办事项提取方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116629236A true CN116629236A (zh) | 2023-08-22 |
Family
ID=87621100
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310651488.3A Pending CN116629236A (zh) | 2023-06-02 | 2023-06-02 | 一种待办事项提取方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116629236A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117455420A (zh) * | 2023-12-22 | 2024-01-26 | 深圳海智创科技有限公司 | 办公任务处理方法、装置、电子设备及存储介质 |
-
2023
- 2023-06-02 CN CN202310651488.3A patent/CN116629236A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117455420A (zh) * | 2023-12-22 | 2024-01-26 | 深圳海智创科技有限公司 | 办公任务处理方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7464098B2 (ja) | 電子会議システム | |
CN106685916B (zh) | 电子会议智能装置及方法 | |
CN110971969B (zh) | 视频配乐方法、装置、电子设备及计算机可读存储介质 | |
CN108052577B (zh) | 一种通用文本内容挖掘方法、装置、服务器及存储介质 | |
CN110740389B (zh) | 视频定位方法、装置、计算机可读介质及电子设备 | |
US20190221208A1 (en) | Method, user interface, and device for audio-based emoji input | |
CN111651497B (zh) | 用户标签挖掘方法、装置、存储介质及电子设备 | |
US20130311506A1 (en) | Method and apparatus for user query disambiguation | |
CN110990598B (zh) | 资源检索方法、装置、电子设备及计算机可读存储介质 | |
CN112364829B (zh) | 一种人脸识别方法、装置、设备及存储介质 | |
CN111582360A (zh) | 用于标注数据的方法、装置、设备和介质 | |
CN116629236A (zh) | 一种待办事项提取方法、装置、设备及存储介质 | |
CN111555960A (zh) | 信息生成的方法 | |
CN116562270A (zh) | 一种支持多模态输入的自然语言处理系统及其方法 | |
CN111354362A (zh) | 用于辅助听障者交流的方法和装置 | |
CN110263135B (zh) | 一种数据交换匹配方法、装置、介质和电子设备 | |
CN112069786A (zh) | 文本信息处理方法、装置、电子设备及介质 | |
CN112309389A (zh) | 信息交互方法和装置 | |
CN116543798A (zh) | 基于多分类器的情感识别方法和装置、电子设备、介质 | |
CN112837672A (zh) | 对话归属的确定方法、装置、电子设备及存储介质 | |
CN112214695A (zh) | 信息处理方法、装置和电子设备 | |
CN114697762A (zh) | 一种处理方法、装置、终端设备及介质 | |
CN111462548A (zh) | 一种段落点读方法、装置、设备和可读介质 | |
CN113221514A (zh) | 文本处理方法、装置、电子设备和存储介质 | |
CN112699687A (zh) | 内容编目方法、装置和电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |