CN113779965A - 一种语句词语采集方法及装置 - Google Patents

一种语句词语采集方法及装置 Download PDF

Info

Publication number
CN113779965A
CN113779965A CN202111058415.0A CN202111058415A CN113779965A CN 113779965 A CN113779965 A CN 113779965A CN 202111058415 A CN202111058415 A CN 202111058415A CN 113779965 A CN113779965 A CN 113779965A
Authority
CN
China
Prior art keywords
sentence
statement
information
word
segmented
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111058415.0A
Other languages
English (en)
Inventor
尹红霞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhonglian Guozhi Technology Management Beijing Co ltd
Original Assignee
Zhonglian Guozhi Technology Management Beijing Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhonglian Guozhi Technology Management Beijing Co ltd filed Critical Zhonglian Guozhi Technology Management Beijing Co ltd
Priority to CN202111058415.0A priority Critical patent/CN113779965A/zh
Publication of CN113779965A publication Critical patent/CN113779965A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Abstract

本发明公开了一种语句词语采集方法及装置。其中,该方法包括:获取语句应用场景;根据预设应用场景分类规则,将所述语句应用场景进行分类,得到语句信息;将所述语句信息进行分割处理,得到分割语句信息;采集所述分割语句信息中的词语数据。本发明解决了现有技术中的语句词语采集方法仅仅对原始语句数据进行采集,无法根据场景信息对语句进行分类采集,降低了语句采集整体的效率的技术问题。

Description

一种语句词语采集方法及装置
技术领域
本发明涉及语句采集领域,具体而言,涉及一种语句词语采集方法及装置。
背景技术
随着智能化科技的不断发展,人们的生活、工作、学习之中越来越多地用到了智能化设备,使用智能化科技手段,提高了人们生活的质量,增加了人们学习和工作的效率。
目前,在采集语句数据的过程中,通常对原始语句进行拆分处理并将拆分后的语句数据进行分析,提取可用的采集信息而进行相关的采集操作,但是传统的语句词语采集方法仅仅对原始语句数据进行采集,无法根据场景信息对语句进行分类采集,降低了语句采集整体的效率。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种语句词语采集方法及装置,以至少解决现有技术中的语句词语采集方法仅仅对原始语句数据进行采集,无法根据场景信息对语句进行分类采集,降低了语句采集整体的效率的技术问题。
根据本发明实施例的一个方面,提供了一种语句词语采集方法,包括:获取语句应用场景;根据预设应用场景分类规则,将所述语句应用场景进行分类,得到语句信息;将所述语句信息进行分割处理,得到分割语句信息;采集所述分割语句信息中的词语数据。
可选的,在所述获取语句应用场景之前,所述方法还包括:获取原始语句数据。
可选的,在所述将所述语句信息进行分割处理,得到分割语句信息之前,所述方法还包括:根据所述语句信息,获取分割策略。
可选的,在所述获取所述分割语句信息中的词语数据之后,所述方法还包括:将所述词语数据进行存储。
根据本发明实施例的另一方面,还提供了一种语句词语采集装置,包括:获取模块,用于获取语句应用场景;分类模块,用于根据预设应用场景分类规则,将所述语句应用场景进行分类,得到语句信息;分割模块,用于将所述语句信息进行分割处理,得到分割语句信息;采集模块,用于采集所述分割语句信息中的词语数据。
可选的,所述装置还包括:获取模块,还用于获取原始语句数据。
可选的,所述装置还包括:策略模块,用于根据所述语句信息,获取分割策略。
可选的,所述装置还包括:存储模块,用于将所述词语数据进行存储。
根据本发明实施例的另一方面,还提供了一种非易失性存储介质,所述非易失性存储介质包括存储的程序,其中,所述程序运行时控制非易失性存储介质所在的设备执行一种语句词语采集方法。
根据本发明实施例的另一方面,还提供了一种电子装置,包含处理器和存储器;所述存储器中存储有计算机可读指令,所述处理器用于运行所述计算机可读指令,其中,所述计算机可读指令运行时执行一种语句词语采集方法。
在本发明实施例中,采用获取语句应用场景;根据预设应用场景分类规则,将所述语句应用场景进行分类,得到语句信息;将所述语句信息进行分割处理,得到分割语句信息;采集所述分割语句信息中的词语数据的方式,解决了现有技术中的语句词语采集方法仅仅对原始语句数据进行采集,无法根据场景信息对语句进行分类采集,降低了语句采集整体的效率的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的一种语句词语采集方法的流程图;
图2是根据本发明实施例的一种语句词语采集装置的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
根据本发明实施例,提供了一种语句词语采集方法的方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
实施例一
图1是根据本发明实施例的一种语句词语采集方法的流程图,如图1所示,该方法包括如下步骤:
步骤S102,获取语句应用场景。
具体的,本发明实施例为了利用语句应用场景对语句词语进行采集,首先需要获取语句的应用场景,语句应用场景是包括了语句所在的语义、应用场景等信息在内的语句属性参数,通过获取上述语句应用场景,可以降低语句分类以及语句采集的错误率和计算量,增加语句词语采集的效率。
例如,在语句翻译过程中,需要对语句的词语进行采集,然而在通过声音采集设备或者图像采集设备对原始的语句进行采集之后,需要根据原始的语句判断语句所在的应用场景为“用餐”,那么根据应用场景“用餐”则可以调取与用餐相关的语句拆分规则,如筷子、米饭、吃饱了、还没吃饱等词语或短语,那么根据上述应用场景和拆分规则,可以进行相应场景下的词语采集操作。
可选的,在所述获取语句应用场景之前,所述方法还包括:获取原始语句数据。
具体的,为了获得相应的语句应用场景,本发明实施例在进行语句应用场景判断和生成之前,还需要通过采集装置采集原始语句数据,并根据上述原始语句数据和语句应用场景映射模型来获取语句应用场景。
步骤S104,根据预设应用场景分类规则,将所述语句应用场景进行分类,得到语句信息。
具体的,当本发明实施例获取到了语句应用场景之后,需要根据用户预设的应用场景分类规则对上述信息进行分类,得到语句信息,该语句信息是根据特定应用场景采集到的语句数据信息。
需要说明的是,语句信息可以是通过对语句应用场景进行分类,得到分类结果后,根据分类结果对原始语句进行提炼,从而获取可以用于分割和采集的语句信息。例如,在“用餐”语句应用场景中,通过预设与用餐相关的应用场景分类规则,将本次语句分类为“食物”,并根据所有的原始语句数据,提炼与食物有关系的语句,并摘取涉及到了食物的语句作为语句信息。
步骤S106,将所述语句信息进行分割处理,得到分割语句信息。
具体的,当本发明实施例获取到了语句信息之后,为了顺利而高效地提取到需要采集的词语,需要将语句信息进行分割,并将分割后的语句信息发送至后续词语采集中,这样通过采集分割后的短语句可以更高效精准地获取每一个需要提取的关键词或符合提取规则的词语。
可选的,在所述将所述语句信息进行分割处理,得到分割语句信息之前,所述方法还包括:根据所述语句信息,获取分割策略。
具体的,为了将语句信息进行词语采集操作,需要将长度较长的语句信息进行分割处理,并将分割后的短语句作为分割语句信息,用于后续的词语采集之用。同时在所述将所述语句信息进行分割处理,得到分割语句信息之前,所述方法还包括:根据所述语句信息,获取分割策略。
步骤S108,采集所述分割语句信息中的词语数据。
具体的,为了获取词语数据,需要将分割后的语句信息进行词语采集,其中,词语的长度根据预设长度而确定,并根据词语识别模型对分割语句中的若干词语进行识别,提取出需要进行采集的语句词语,并加以存储和反馈。
可选的,在所述获取所述分割语句信息中的词语数据之后,所述方法还包括:将所述词语数据进行存储。
通过上述实施例,解决了现有技术中的语句词语采集方法仅仅对原始语句数据进行采集,无法根据场景信息对语句进行分类采集,降低了语句采集整体的效率的技术问题。
实施例二
图2是根据本发明实施例的一种语句词语采集装置的结构框图,如图2所示,该装置包括:
获取模块20,用于获取语句应用场景。
具体的,本发明实施例为了利用语句应用场景对语句词语进行采集,首先需要获取语句的应用场景,语句应用场景是包括了语句所在的语义、应用场景等信息在内的语句属性参数,通过获取上述语句应用场景,可以降低语句分类以及语句采集的错误率和计算量,增加语句词语采集的效率。
例如,在语句翻译过程中,需要对语句的词语进行采集,然而在通过声音采集设备或者图像采集设备对原始的语句进行采集之后,需要根据原始的语句判断语句所在的应用场景为“用餐”,那么根据应用场景“用餐”则可以调取与用餐相关的语句拆分规则,如筷子、米饭、吃饱了、还没吃饱等词语或短语,那么根据上述应用场景和拆分规则,可以进行相应场景下的词语采集操作。
可选的,所述装置还包括:获取模块,还用于获取原始语句数据。
具体的,为了获得相应的语句应用场景,本发明实施例在进行语句应用场景判断和生成之前,还需要通过采集装置采集原始语句数据,并根据上述原始语句数据和语句应用场景映射模型来获取语句应用场景。
分类模块22,用于根据预设应用场景分类规则,将所述语句应用场景进行分类,得到语句信息。
具体的,当本发明实施例获取到了语句应用场景之后,需要根据用户预设的应用场景分类规则对上述信息进行分类,得到语句信息,该语句信息是根据特定应用场景采集到的语句数据信息。
需要说明的是,语句信息可以是通过对语句应用场景进行分类,得到分类结果后,根据分类结果对原始语句进行提炼,从而获取可以用于分割和采集的语句信息。例如,在“用餐”语句应用场景中,通过预设与用餐相关的应用场景分类规则,将本次语句分类为“食物”,并根据所有的原始语句数据,提炼与食物有关系的语句,并摘取涉及到了食物的语句作为语句信息。
分割模块24,用于将所述语句信息进行分割处理,得到分割语句信息。
具体的,当本发明实施例获取到了语句信息之后,为了顺利而高效地提取到需要采集的词语,需要将语句信息进行分割,并将分割后的语句信息发送至后续词语采集中,这样通过采集分割后的短语句可以更高效精准地获取每一个需要提取的关键词或符合提取规则的词语。
可选的,所述装置还包括:策略模块,用于根据所述语句信息,获取分割策略。
具体的,为了将语句信息进行词语采集操作,需要将长度较长的语句信息进行分割处理,并将分割后的短语句作为分割语句信息,用于后续的词语采集之用。同时在所述将所述语句信息进行分割处理,得到分割语句信息之前,所述方法还包括:根据所述语句信息,获取分割策略。
采集模块26,用于采集所述分割语句信息中的词语数据。
具体的,为了获取词语数据,需要将分割后的语句信息进行词语采集,其中,词语的长度根据预设长度而确定,并根据词语识别模型对分割语句中的若干词语进行识别,提取出需要进行采集的语句词语,并加以存储和反馈。
可选的,所述装置还包括:存储模块,用于将所述词语数据进行存储。
根据本发明实施例的另一方面,还提供了一种非易失性存储介质,所述非易失性存储介质包括存储的程序,其中,所述程序运行时控制非易失性存储介质所在的设备执行一种语句词语采集方法。
具体的,上述方法还包括:获取语句应用场景;根据预设应用场景分类规则,将所述语句应用场景进行分类,得到语句信息;将所述语句信息进行分割处理,得到分割语句信息;采集所述分割语句信息中的词语数据。
根据本发明实施例的另一方面,还提供了一种电子装置,包含处理器和存储器;所述存储器中存储有计算机可读指令,所述处理器用于运行所述计算机可读指令,其中,所述计算机可读指令运行时执行一种语句词语采集方法。
具体的,上述方法还包括:获取语句应用场景;根据预设应用场景分类规则,将所述语句应用场景进行分类,得到语句信息;将所述语句信息进行分割处理,得到分割语句信息;采集所述分割语句信息中的词语数据。
通过上述实施例,解决了现有技术中的语句词语采集方法仅仅对原始语句数据进行采集,无法根据场景信息对语句进行分类采集,降低了语句采集整体的效率的技术问题。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种语句词语采集方法,其特征在于,包括:
获取语句应用场景;
根据预设应用场景分类规则,将所述语句应用场景进行分类,得到语句信息;
将所述语句信息进行分割处理,得到分割语句信息;
采集所述分割语句信息中的词语数据。
2.根据权利要求1所述的方法,其特征在于,在所述获取语句应用场景之前,所述方法还包括:
获取原始语句数据。
3.根据权利要求1所述的方法,其特征在于,在所述将所述语句信息进行分割处理,得到分割语句信息之前,所述方法还包括:
根据所述语句信息,获取分割策略。
4.根据权利要求1所述的方法,其特征在于,在所述获取所述分割语句信息中的词语数据之后,所述方法还包括:
将所述词语数据进行存储。
5.一种语句词语采集装置,其特征在于,包括:
获取模块,用于获取语句应用场景;
分类模块,用于根据预设应用场景分类规则,将所述语句应用场景进行分类,得到语句信息;
分割模块,用于将所述语句信息进行分割处理,得到分割语句信息;
采集模块,用于采集所述分割语句信息中的词语数据。
6.根据权利要求5所述的装置,其特征在于,所述装置还包括:
获取模块,还用于获取原始语句数据。
7.根据权利要求5所述的装置,其特征在于,所述装置还包括:
策略模块,用于根据所述语句信息,获取分割策略。
8.根据权利要求5所述的装置,其特征在于,所述装置还包括:
存储模块,用于将所述词语数据进行存储。
9.一种非易失性存储介质,其特征在于,所述非易失性存储介质包括存储的程序,其中,所述程序运行时控制非易失性存储介质所在的设备执行权利要求1至4中任意一项所述的方法。
10.一种电子装置,其特征在于,包含处理器和存储器;所述存储器中存储有计算机可读指令,所述处理器用于运行所述计算机可读指令,其中,所述计算机可读指令运行时执行权利要求1至4中任意一项所述的方法。
CN202111058415.0A 2021-09-10 2021-09-10 一种语句词语采集方法及装置 Pending CN113779965A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111058415.0A CN113779965A (zh) 2021-09-10 2021-09-10 一种语句词语采集方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111058415.0A CN113779965A (zh) 2021-09-10 2021-09-10 一种语句词语采集方法及装置

Publications (1)

Publication Number Publication Date
CN113779965A true CN113779965A (zh) 2021-12-10

Family

ID=78842160

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111058415.0A Pending CN113779965A (zh) 2021-09-10 2021-09-10 一种语句词语采集方法及装置

Country Status (1)

Country Link
CN (1) CN113779965A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007304867A (ja) * 2006-05-11 2007-11-22 Ebook Initiative Japan Co Ltd 翻訳支援システム、指示データ生成装置、訳文データ生成装置ならびにそれらのプログラム
CN107273501A (zh) * 2017-06-16 2017-10-20 合肥美的智能科技有限公司 语料生成方法及系统、智能设备和计算机装置
CN108664595A (zh) * 2018-05-08 2018-10-16 和美(深圳)信息技术股份有限公司 领域知识库构建方法、装置、计算机设备和存储介质
CN109145313A (zh) * 2018-07-18 2019-01-04 广州杰赛科技股份有限公司 语句的翻译方法、装置和存储介质
CN110232112A (zh) * 2019-05-31 2019-09-13 北京创鑫旅程网络技术有限公司 文章中关键词提取方法及装置
CN111832322A (zh) * 2020-06-30 2020-10-27 北京小米松果电子有限公司 语句翻译方法、装置、电子设备和存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007304867A (ja) * 2006-05-11 2007-11-22 Ebook Initiative Japan Co Ltd 翻訳支援システム、指示データ生成装置、訳文データ生成装置ならびにそれらのプログラム
CN107273501A (zh) * 2017-06-16 2017-10-20 合肥美的智能科技有限公司 语料生成方法及系统、智能设备和计算机装置
CN108664595A (zh) * 2018-05-08 2018-10-16 和美(深圳)信息技术股份有限公司 领域知识库构建方法、装置、计算机设备和存储介质
CN109145313A (zh) * 2018-07-18 2019-01-04 广州杰赛科技股份有限公司 语句的翻译方法、装置和存储介质
CN110232112A (zh) * 2019-05-31 2019-09-13 北京创鑫旅程网络技术有限公司 文章中关键词提取方法及装置
CN111832322A (zh) * 2020-06-30 2020-10-27 北京小米松果电子有限公司 语句翻译方法、装置、电子设备和存储介质

Similar Documents

Publication Publication Date Title
CN109145152B (zh) 一种基于查询词的自适应智能生成图文视频缩略图方法
CN108509465A (zh) 一种视频数据的推荐方法、装置和服务器
CN104881458B (zh) 一种网页主题的标注方法和装置
CN104503958A (zh) 文档摘要的生成方法及装置
Tuytelaars et al. Naming people in news videos with label propagation
US11907659B2 (en) Item recall method and system, electronic device and readable storage medium
CN113051362B (zh) 数据的查询方法、装置和服务器
CN111291572B (zh) 一种文字排版方法、装置及计算机可读存储介质
CN110516203B (zh) 争议焦点分析方法、装置、电子设备及计算机可存储介质
WO2020253506A1 (zh) 合同内容的提取方法及装置、计算机设备、存储介质
CN110413787A (zh) 文本聚类方法、装置、终端和存储介质
CN111198946A (zh) 一种网络新闻热点挖掘方法及装置
CN111563382A (zh) 文本信息的获取方法、装置、存储介质及计算机设备
US20190362187A1 (en) Training data creation method and training data creation apparatus
CN105512300B (zh) 信息过滤方法及系统
CN108121721A (zh) 意图识别方法及装置
CN112270191A (zh) 提取工单文本主题的方法及装置
CN110738047A (zh) 基于图文数据与时间效应的微博用户兴趣挖掘方法及系统
CN109992665A (zh) 一种基于问题目标特征扩展的分类方法
WO2021114634A1 (zh) 文本标注方法、设备及存储介质
CN108733733B (zh) 基于机器学习的生物医学文本分类方法、系统和存储介质
CN113779965A (zh) 一种语句词语采集方法及装置
CN107590163B (zh) 文本特征选择的方法、装置和系统
CN106933797B (zh) 目标信息的生成方法及装置
CN111475607B (zh) 一种基于Mashup服务功能特征表示与密度峰值检测的Web数据聚类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20211210