CN115129951A - 一种获取目标语句的数据处理系统 - Google Patents
一种获取目标语句的数据处理系统 Download PDFInfo
- Publication number
- CN115129951A CN115129951A CN202210873019.1A CN202210873019A CN115129951A CN 115129951 A CN115129951 A CN 115129951A CN 202210873019 A CN202210873019 A CN 202210873019A CN 115129951 A CN115129951 A CN 115129951A
- Authority
- CN
- China
- Prior art keywords
- target
- character
- sentence
- chinese
- obtaining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
- G06F16/90344—Query processing by using string matching techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
本发明涉及一种获取目标语句的数据处理系统包括:数据库、处理器和存储有计算机程序的存储器,当所述计算机程序被处理器执行时,实现以下步骤:获取任一样本语句对应的初始字符串;对样本语句对应的初始字符串进行处理,获取样本语句对应的中间字符串集;将所有的中间字符串集作为训练数据集输入至预设的神经网络模型中,获取目标神经网络模型和目标字符串;将目标字符串输入至所述目标神经网络模型中,确定为非中文字符或者标点字符;根据所有的非中文字符或者标点字符,生成目标字符串对应的目标语句;本发明能够确定出非中文语句中符号是特殊符号或者非中文单词,提高非中文语句匹配的准确性。
Description
技术领域
本发明涉及语句处理技术领域,尤其涉及一种获取目标语句的数据处理系统。
背景技术
当前,语句匹配技术在许多技术领域得到广泛应用。现有的语句匹配方法通常有两种,一是基于传统统计模型的匹配方法,该方法仅能通过词频TF和逆文本词频IDF确定语句中词的相似度,匹配精确度较低;二是基于深度学习的语义匹配模型,该方法仅考虑语句的句义相似度特征,无法解决语句信息缺失带来的歧义问题,导致匹配结果不精确。
现有技术中,会采取根据第一语句的基准词汇查找第二语句的对比词汇,其中,对比词汇在第二语句中的位置与基准词汇在第一语句中的位置相同;以对比词汇为中心在第二语句中划分待匹配词汇,其中,待匹配词汇为多个与基准词汇进行相似度的匹配的词汇;对基准词汇和待匹配词汇进行一一对比,得到基准词汇和待匹配词汇的相似度;以及将相似度最大的待匹配词汇作为与基准词汇匹配的词汇。可以解决上述语句匹配不准确的问题。
但是,大部分的技术无法解决非中文语句的匹配,尤其是非中文语句中符号无法确定是特殊符号还是非中文单词,导致非中文语句匹配不准确问题。
发明内容
针对上述技术问题,本发明采用的技术方案为一种获取目标语句的数据处理系统,所述系统包括:数据库、处理器和存储有计算机程序的存储器,其中,所述数据库包括:样本语句列表A={A1,……,Ai,……,Am},Ai是指第i样本语句,i=1……m,m为样本语句数量,所述样本语句为非中文语句,当所述计算机程序被处理器执行时,实现以下步骤:
S100、获取Ai对应的初始字符串A'i;
S200、对A'i进行处理,获取Ai对应的中间字符串集Bi=(Bi1,……,Bit,……,Bik),Bit=(B1 it,……,Bj it,……,Bn it),Bj it是指Ai对应的第t个中间字符串的第j个子字符串,t=1……k,k为中间字符串数量,j=1……n,n为每一中间字符串中子字符串数量,其中,Bj it符合如下条件:Bj it={Ait,Ait+1,……,Ait+j-1},其中,Ait是指A'i中第t个初始字符;
S300、将所有的Bi作为训练数据集输入至预设的神经网络模型中,获取目标神经网络模型;
S400、获取目标字符串D={D1,……,Dr,……,Dh},Dr是指第r个目标字符,r=1……h,h为目标字符数量;
S500、将D输入至所述目标神经网络模型中,确定Dr为非中文字符或者标点字符;
S600、根据所有的Dr,生成D对应的目标语句。
本发明与现有技术相比具有明显的优点和有益效果。借由上述技术方案,本发明提供的一种获取目标语句的数据处理系统可达到相当的技术进步性及实用性,并具有产业上的广泛利用价值,其至少具有下列优点:
本发明的一种获取目标语句的数据处理系统包括:数据库、处理器和存储有计算机程序的存储器,其中,所述数据库包括:样本语句列表且所述样本语句列表中任一样本语句为非中文语句,当所述计算机程序被处理器执行时,实现以下步骤:获取任一样本语句对应的初始字符串;对样本语句对应的初始字符串进行处理,获取样本语句对应的中间字符串集;将所有的中间字符串集作为训练数据集输入至预设的神经网络模型中,获取目标神经网络模型和目标字符串;将目标字符串输入至所述目标神经网络模型中,确定为非中文字符或者标点字符;根据所有的非中文字符或者标点字符,生成目标字符串对应的目标语句;能够确定出非中文语句中符号是特殊符号或者非中文单词,提高非中文语句匹配的准确性。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其他目的、特征和优点能够更明显易懂,以下特举较佳实施例,并配合附图,详细说明如下。
附图说明
图1为本发明实施例提供的一种获取目标语句的数据处理系统的执行步骤的流程图。
具体实施方式
为更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的一种获取目标位置的数据处理系统的具体实施方式及其功效,详细说明如后。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例一
本实施例提供了一种获取目标语句的数据处理系统,所述系统包括:数据库、处理器和存储有计算机程序的存储器,其中,所述数据库包括:样本语句列表A={A1,……,Ai,……,Am},Ai是指第i个样本语句,i=1……m,m为样本语句数量,所述样本语句为非中文语句,当所述计算机程序被处理器执行时,实现以下步骤,如图1所示:
S100、获取Ai对应的初始字符串A'i。
具体地,所述非中文语句是指非中文字符构建的语句,优选地,所述非中文字符为英文字符。
S200、对A'i进行处理,获取Ai对应的中间字符串集Bi=(Bi1,……,Bit,……,Bik),Bit=(B1 it,……,Bj it,……,Bn it),Bj it是指Ai对应的第t个中间字符串的第j个子字符串,t=1……k,k为中间字符串数量,j=1……n,n为每一中间字符串中子字符串数量,其中,Bj it符合如下条件:Bj it={Ait,Ait+1,……,Ait+j-1},其中,Ait是指A'i中第t个初始字符。
具体地,所述初始字符为非中文字符或标点字符,其中,标点字符包括标点符号和空格;能够空格也作为标点字符,便于通过神经网络学习,从非中文语句中确定空格。
具体地,k符合如下条件:
k=si-n+1,其中,si为A'i中初始字符的数量。
具体地,在S200步骤中还通过如下步骤获取n:
S201、获取A'i中特殊字符串A0 i={A0 i1,……,A0 ig,……,A0 izi},A0 ig是指A'i中第g个特殊字符,g=1……zi,zi是指A'i中特殊字符的数量。
具体地,所述特殊字符串包括一个中心字符和中心字符对应的间隔字符。
进一步地,所述中心字符是指在样本语句中任一标点符号。
进一步地,所述间隔字符串是指在样本语句中,所述中心字符的两侧对应的各两个非中文字符串;可以理解为:所述中心字符的一侧的两组非中文字符,以及所述中心字符的另一侧的两组非中文字符均属于间隔字符。
优选地,所述中心字符为非中文的句号字符。
优选地,在所述特殊字符串中,每一非中文字符串可构建成一个完整的单词。
优选地,所述中心字符与一侧的两非中文字符串之间的间隔为两个空格。
优选地,所述特殊字符是指所述中心字符或者所述间隔字符串中任一字符。
S203、根据所有的A0 i,获取A对应的特殊字符数量Z={z1,……,zi,……,zm}。
S205、根据Z,获取n,n符合如下条件:
n=(∑m i=1zi)/m。
上述,能够通过特殊字符,确定样本语句对应的非中文字符串可构建的中间字符串的每一子字符串的最大长度,进而准确的确定出非中文语句中符号是特殊符号或者非中文单词,提高非中文语句匹配的准确性。
S300、将所有的Bi作为训练数据集输入至预设的神经网络模型中,获取目标神经网络模型。
具体地,在S300步骤中还包括如下步骤:
S301、获取关键语句列表C={C1,……,Cx,……,Cp},Cx是第x个关键语句,x=1……p,p为关键语句数量,其中,所述关键语句为非中文语句且所述关键语句与样本语句不一致。
S303、将Cx进行处理,获取Cx对应的关键字符串集C'x={C'x1,……,C'xy,……,C'xq},C'xy是指Cx中第y个关键字符串,y=1……q,q为Cx中关键字符串数量,其中,C'xy的获取方式与Bit的获取方式一致。
S305、将C'x输入至已经训练的神经网络模型中,确定C'xy中每一关键字符串为非中文字符或者标点字符。
S307、根据所有的C'xy,生成Cx对应的指定语句Cx0。
S309、根据Cx0和Cx,获取Cx0和Cx之间的相似度F0 x。
具体地,在S309步骤中还通过如下步骤获取F0 x:
S3095、根据MK0x和NKx,获取F0 x,其中,F0 x符合如下条件:
S3011、根据F0 x,确定已经训练的神经网络模型为目标神经网络模型,其中,本领域技术人员知晓通过相似度对神经网络模型进行训练的方法均属于本发明的保护范围,在此不再赘述。
S400、获取目标字符串D={D1,……,Dr,……,Dh},Dr是指第r个目标字符,r=1……h,h为目标字符数量。
S500、将D输入至所述目标神经网络模型中,确定Dr为非中文字符或者标点字符。
S600、根据所有的Dr,生成D对应的目标语句,可以理解为:根据Dr对应的判断结果,构建出目标语句,本领域技术人员知晓,基于字符任一构建语句的方法均属于本发明的保护范围,在此不再赘述。
本实施例提供了一种获取目标语句的数据处理系统包括:数据库、处理器和存储有计算机程序的存储器,其中,所述数据库包括:样本语句列表且所述样本语句列表中任一样本语句为非中文语句,当所述计算机程序被处理器执行时,实现以下步骤:获取任一样本语句对应的初始字符串;对样本语句对应的初始字符串进行处理,获取样本语句对应的中间字符串集;将所有的中间字符串集作为训练数据集输入至预设的神经网络模型中,获取目标神经网络模型和目标字符串;将目标字符串输入至所述目标神经网络模型中,确定为非中文字符或者标点字符;根据所有的非中文字符或者标点字符,生成目标字符串对应的目标语句;能够确定出非中文语句中符号是特殊符号或者非中文单词,提高非中文语句匹配的准确性。
以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,虽然本发明已以较佳实施例揭露如上,然而并非用以限定本发明,任何熟悉本专业的技术人员,在不脱离本发明技术方案范围内,当可利用上述揭示的技术内容作出些许更动或修饰为等同变化的等效实施例,但凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属于本发明技术方案的范围内。
Claims (8)
1.一种获取目标语句的数据处理系统,其特征在于,所述系统包括:数据库、处理器和存储有计算机程序的存储器,其中,所述数据库包括:样本语句列表A={A1,……,Ai,……,Am},Ai是指第i样本语句,i=1……m,m为样本语句数量,所述样本语句为非中文语句,当所述计算机程序被处理器执行时,实现以下步骤:
S100、获取Ai对应的初始字符串A'i;
S200、对A'i进行处理,获取Ai对应的中间字符串集Bi=(Bi1,……,Bit,……,Bik),Bit=(B1 it,……,Bj it,……,Bn it),Bj it是指Ai对应的第t个中间字符串的第j个子字符串,t=1……k,k为中间字符串数量,j=1……n,n为每一中间字符串中子字符串数量,其中,Bj it符合如下条件:Bj it={Ait,Ait+1,……,Ait+j-1},其中,Ait是指A'i中第t个初始字符;
S300、将所有的Bi作为训练数据集输入至预设的神经网络模型中,获取目标神经网络模型;
S400、获取目标字符串D={D1,……,Dr,……,Dh},Dr是指第r个目标字符,r=1……h,h为目标字符数量;
S500、将D输入至所述目标神经网络模型中,确定Dr为非中文字符或者标点字符;
S600、根据所有的Dr,生成D对应的目标语句。
2.根据权利要求1所述的获取目标语句的数据处理系统,其特征在于,所述初始字符为非中文字符或者标点字符。
3.根据权利要求1所述的获取目标语句的数据处理系统,其特征在于,在S300步骤中还包括如下步骤:
S301、获取关键语句列表C={C1,……,Cx,……,Cp},Cx是第x个关键语句,x=1……p,p为关键语句数量;
S303、将Cx进行处理,获取Cx对应的关键字符串集C'x={C'x1,……,C'xy,……,C'xq},C'xy是指Cx中第y个关键字符串,y=1……q,q为Cx中关键字符串数量;
S305、将C'x输入至已经训练的神经网络模型中,确定C'xy中每一关键字符为非中文字符或者标点字符;
S307、根据所有的C'xy,生成Cx对应的指定语句Cx0;
S309、根据Cx0和Cx,获取Cx0和Cx之间的相似度F0 x且根据F0 x,确定已经训练的神经网络模型为目标神经网络模型。
4.根据权利要求3所述的获取目标语句的数据处理系统,其特征在于,C'xy的获取方式与Bit的获取方式一致。
7.根据权利要求1所述的获取目标语句的数据处理系统,其特征在于,所述非中文语句是指非中文字符构建的语句。
8.根据权利要求7所述的获取目标语句的数据处理系统,其特征在于,所述非中文字符为英文字符。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210873019.1A CN115129951B (zh) | 2022-07-21 | 2022-07-21 | 一种获取目标语句的数据处理系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210873019.1A CN115129951B (zh) | 2022-07-21 | 2022-07-21 | 一种获取目标语句的数据处理系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115129951A true CN115129951A (zh) | 2022-09-30 |
CN115129951B CN115129951B (zh) | 2023-04-14 |
Family
ID=83383910
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210873019.1A Active CN115129951B (zh) | 2022-07-21 | 2022-07-21 | 一种获取目标语句的数据处理系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115129951B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117312624A (zh) * | 2023-11-30 | 2023-12-29 | 北京睿企信息科技有限公司 | 一种获取目标数据列表的数据处理系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190103091A1 (en) * | 2017-09-29 | 2019-04-04 | Baidu Online Network Technology (Beijing) Co., Ltd . | Method and apparatus for training text normalization model, method and apparatus for text normalization |
CN112528649A (zh) * | 2020-12-14 | 2021-03-19 | 圆通速递有限公司 | 针对多语言混合文本的英文拼音识别方法和系统 |
US20210373510A1 (en) * | 2020-05-28 | 2021-12-02 | Johnson Controls Technology Company | Building system with string mapping based on a sequence to sequence neural network |
CN114298032A (zh) * | 2021-12-16 | 2022-04-08 | 科大讯飞股份有限公司 | 文本标点检测方法、计算机设备及存储介质 |
US20220139386A1 (en) * | 2020-11-03 | 2022-05-05 | Beijing Wodong Tianjun Information Tehnology Co., Ltd. | System and method for chinese punctuation restoration using sub-character information |
-
2022
- 2022-07-21 CN CN202210873019.1A patent/CN115129951B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190103091A1 (en) * | 2017-09-29 | 2019-04-04 | Baidu Online Network Technology (Beijing) Co., Ltd . | Method and apparatus for training text normalization model, method and apparatus for text normalization |
US20210373510A1 (en) * | 2020-05-28 | 2021-12-02 | Johnson Controls Technology Company | Building system with string mapping based on a sequence to sequence neural network |
US20220139386A1 (en) * | 2020-11-03 | 2022-05-05 | Beijing Wodong Tianjun Information Tehnology Co., Ltd. | System and method for chinese punctuation restoration using sub-character information |
CN112528649A (zh) * | 2020-12-14 | 2021-03-19 | 圆通速递有限公司 | 针对多语言混合文本的英文拼音识别方法和系统 |
CN114298032A (zh) * | 2021-12-16 | 2022-04-08 | 科大讯飞股份有限公司 | 文本标点检测方法、计算机设备及存储介质 |
Non-Patent Citations (2)
Title |
---|
李宏乔等: "汉语文本中特殊符号串的自动识别技术" * |
黄成哲等: "英文句子边界自动识别", 《微处理机》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117312624A (zh) * | 2023-11-30 | 2023-12-29 | 北京睿企信息科技有限公司 | 一种获取目标数据列表的数据处理系统 |
CN117312624B (zh) * | 2023-11-30 | 2024-02-20 | 北京睿企信息科技有限公司 | 一种获取目标数据列表的数据处理系统 |
Also Published As
Publication number | Publication date |
---|---|
CN115129951B (zh) | 2023-04-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111444320B (zh) | 文本检索方法、装置、计算机设备和存储介质 | |
CN108399163B (zh) | 结合词聚合与词组合语义特征的文本相似性度量方法 | |
CN107168955B (zh) | 利用基于词上下文的字嵌入与神经网络的中文分词方法 | |
US8386240B2 (en) | Domain dictionary creation by detection of new topic words using divergence value comparison | |
CN110162771B (zh) | 事件触发词的识别方法、装置、电子设备 | |
CN112818093B (zh) | 基于语义匹配的证据文档检索方法、系统及存储介质 | |
CN108021555A (zh) | 一种基于深度卷积神经网络的问句相似度度量方法 | |
Valarakos et al. | Enhancing ontological knowledge through ontology population and enrichment | |
CN112035730A (zh) | 一种语义检索方法、装置及电子设备 | |
CN116401464B (zh) | 一种职业用户画像的构建方法、装置、设备及存储介质 | |
CN114330343B (zh) | 词性感知嵌套命名实体识别方法、系统、设备和存储介质 | |
CN108363688A (zh) | 一种融合先验信息的命名实体链接方法 | |
Baba et al. | Plagiarism detection using document similarity based on distributed representation | |
Habib et al. | An exploratory approach to find a novel metric based optimum language model for automatic bangla word prediction | |
CN115129951B (zh) | 一种获取目标语句的数据处理系统 | |
CN114021570A (zh) | 实体消歧方法、装置、设备及存储介质 | |
CN115659226A (zh) | 一种获取app标签的数据处理系统 | |
CN106570196B (zh) | 视频节目的搜索方法和装置 | |
CN110705281A (zh) | 一种基于机器学习的简历信息抽取方法 | |
CN108628826B (zh) | 候选词评估方法、装置、计算机设备和存储介质 | |
JP6495124B2 (ja) | 用語意味コード判定装置、用語意味コード判定モデル学習装置、方法、及びプログラム | |
Trogkanis et al. | Conditional random fields for word hyphenation | |
TWM633252U (zh) | 用於標註訓練資料的運算裝置、用於建立文章標註模型的運算裝置及用於標註文章的運算裝置 | |
Wang et al. | Chinese text error correction suggestion generation based on SoundShape code | |
CN114579763A (zh) | 一种针对中文文本分类任务的字符级对抗样本生成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |