CN117251095A - 用于pda的数据输入方法及系统 - Google Patents
用于pda的数据输入方法及系统 Download PDFInfo
- Publication number
- CN117251095A CN117251095A CN202311176448.4A CN202311176448A CN117251095A CN 117251095 A CN117251095 A CN 117251095A CN 202311176448 A CN202311176448 A CN 202311176448A CN 117251095 A CN117251095 A CN 117251095A
- Authority
- CN
- China
- Prior art keywords
- data
- input
- audio
- user
- pda
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 64
- 238000005457 optimization Methods 0.000 claims abstract description 60
- 238000012545 processing Methods 0.000 claims abstract description 57
- 238000005516 engineering process Methods 0.000 claims abstract description 30
- 230000006399 behavior Effects 0.000 claims description 138
- 238000001228 spectrum Methods 0.000 claims description 89
- 238000012549 training Methods 0.000 claims description 53
- 238000012360 testing method Methods 0.000 claims description 35
- 238000004458 analytical method Methods 0.000 claims description 28
- 238000013528 artificial neural network Methods 0.000 claims description 22
- 238000013178 mathematical model Methods 0.000 claims description 21
- 238000004364 calculation method Methods 0.000 claims description 19
- 238000010276 construction Methods 0.000 claims description 13
- 230000002159 abnormal effect Effects 0.000 claims description 10
- 238000006243 chemical reaction Methods 0.000 claims description 10
- 238000013507 mapping Methods 0.000 claims description 6
- 238000003062 neural network model Methods 0.000 claims description 6
- 238000012986 modification Methods 0.000 claims description 5
- 230000004048 modification Effects 0.000 claims description 5
- 238000013479 data entry Methods 0.000 claims description 4
- 229920001690 polydopamine Polymers 0.000 description 129
- 230000003993 interaction Effects 0.000 description 27
- 230000009286 beneficial effect Effects 0.000 description 15
- 230000000694 effects Effects 0.000 description 10
- 230000008569 process Effects 0.000 description 10
- 230000006870 function Effects 0.000 description 9
- 230000005236 sound signal Effects 0.000 description 9
- 230000004044 response Effects 0.000 description 8
- 230000015572 biosynthetic process Effects 0.000 description 7
- 238000003786 synthesis reaction Methods 0.000 description 7
- 239000000284 extract Substances 0.000 description 6
- 238000013075 data extraction Methods 0.000 description 5
- 238000000605 extraction Methods 0.000 description 4
- 230000008447 perception Effects 0.000 description 4
- 230000002035 prolonged effect Effects 0.000 description 4
- 230000003595 spectral effect Effects 0.000 description 4
- 238000012937 correction Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 239000012634 fragment Substances 0.000 description 3
- 238000012544 monitoring process Methods 0.000 description 3
- 239000003086 colorant Substances 0.000 description 2
- 239000012141 concentrate Substances 0.000 description 2
- 238000005265 energy consumption Methods 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 238000010223 real-time analysis Methods 0.000 description 2
- 238000001308 synthesis method Methods 0.000 description 2
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000002243 precursor Substances 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/02—Input arrangements using manually operated switches, e.g. using keyboards or dials
- G06F3/023—Arrangements for converting discrete items of information into a coded form, e.g. arrangements for interpreting keyboard generated codes as alphanumeric codes, operand codes or instruction codes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0487—Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0487—Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser
- G06F3/0489—Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using dedicated keyboard keys or combinations thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/162—Interface to dedicated audio devices, e.g. audio drivers, interface to CODECs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Multimedia (AREA)
- General Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Quality & Reliability (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本发明涉及数据处理技术领域,尤其涉及一种用于PDA的数据输入方法及系统。所述方法包括以下步骤:对PDA设备进行外部环境音频数据采集,生成外部音频数据;对外部音频数据的噪声强度进行判定,当噪声强度数据过大时,切换成键盘输入方式,当噪声强度数据过小时,切换成麦克风输入方式;根据键盘输入方式进行键盘输入数据实时采集,生成实时输入数据,将实时输入数据传输至优化输入行为模型进行输出数据优化预测,生成优化输出数据;根据麦克风输入方式进行音频输入数据实时采集处理,生成加权音频数据;根据加权音频数据的权重进行最优权重的音频数据提取,生成音频输出数据。本发明通过自动化切换PDA输入方式,以实现更精准的数据输入。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及一种用于PDA的数据输入方法及系统。
背景技术
微处理器的迅速发展、小型化电池技术的进步、触摸屏技术的崭露头角以及移动操作系统的诞生,这些关键技术合并为PDA提供了小巧、高性能、长续航力和直观操作的基础,使其成为便携式计算和数据管理的先驱设备。然而,传统的PDA的数据输入方法不能通过外部环境自动化识别用户所需的输入条件,并且不能自动化识别输入错误,以及输出结果也只是通过输入内容进行简易地输出。
发明内容
基于此,本发明提供一种用于PDA的数据输入方法及系统,以解决至少一个上述技术问题。
为实现上述目的,一种用于PDA的数据输入方法,包括以下步骤:
步骤S1:对PDA设备进行外部环境音频数据采集,生成外部音频数据;对外部音频数据进行噪声强度计算,从而生成噪声强度数据;
步骤S2:对噪声强度数据进行强度判定,当噪声强度数据过大时,将PDA设备的数据输入方式自动切换成键盘输入方式,并执行S3;当噪声强度数据过小时,将PDA设备输入方式自动切换成麦克风输入方式,并执行S4;
步骤S3:获取用户的历史键盘输入数据;利用神经网络算法与历史键盘输入数据进行用户输入行为的数学模型构建,生成优化输入行为模型;根据键盘输入方式进行键盘输入数据实时采集,生成实时输入数据,将实时输入数据传输至优化输入行为模型进行输出数据优化预测,生成优化输出数据,将优化输出数据传输至PDA设备进行反馈;
步骤S4:获取用户的历史语音数据;对历史语音数据进行用户音色数据提取,生成音色数据;根据麦克风输入方式进行音频输入数据实时采集处理,生成音频输入数据;根据音色数据对音频输入数据进行用户音色加权处理,生成加权音频数据;根据加权音频数据的权重进行最优权重的音频数据提取,生成目标音频数据,并根据自然语言技术对目标音频数据进行语意优化,生成音频输出数据,将音频输出数据传输至PDA设备进行反馈。
本发明通过对PDA设备进行外部环境音频数据采集,可以实时感知周围环境的声音,而后对这些外部音频数据进行噪声强度计算,得出噪声强度数据,为PDA设备提供了环境感知的能力,使其能够智能地适应不同的噪声水平环境。这种环境感知有助于提高PDA设备的用户体验,因为它可以在嘈杂的环境中自动切换至键盘输入方式,确保输入的准确性,同时在安静环境中切换至麦克风输入方式,提供更自然的语音交互体验,从而满足用户在不同环境下的需求,提高设备的可用性和实用性。通过对噪声强度数据的实时监测和判定,实现了PDA设备的自适应输入方式切换,从而深刻地提升了用户体验。当噪声强度数据高时,自动切换至键盘输入方式,有助于确保输入准确性,避免因环境噪音干扰而导致错误输入,提供了高度的操作稳定性,尤其在嘈杂的环境中,用户不再需要手动切换输入方式,减少了用户的操作负担。当噪声强度数据较低时,自动切换至麦克风输入方式,使PDA设备更适合进行语音输入,提供更自然的交互方式,有助于用户在安静环境下更轻松地使用设备,同时提高了设备的多样性和适应性,降低了用户感知到的操作复杂度,让PDA设备更加智能和智能化,使用户能够专注于任务而非设备设置,从而增强了设备的可用性、便捷性和用户满意度。基于用户的历史键盘输入数据,运用神经网络算法构建了一个个性化的用户输入行为数学模型,从而实现了高度优化的输入体验,通过分析和学习用户的过去键盘输入数据,系统能够深入了解用户的输入习惯、喜好和特征,进而构建一个针对每位用户的独特模型,有助于提高输入的准确性,更好地预测用户的下一步输入,并且实现了实时输入数据采集和实时优化预测,当用户使用键盘输入方式时,不仅能够收集当前输入数据,还能够将这些数据传输至优化输入行为模型进行实时分析和优化,这意味着系统能够即时响应用户的输入,提供实时的纠正和建议,从而减少输入错误和提高用户工作效率,通过将优化输出数据传输回PDA设备进行反馈,用户可以获得即时的改进建议,提升了用户与设备之间的互动质量。利用了用户的历史语音数据,通过多层处理和分析实现了高度个性化的音频输入和输出,提供了出色的用户体验,通过获取用户的历史语音数据提取用户的音色数据,这意味着系统能够识别和区分不同用户的声音特征,使得PDA设备能够更好地适应个性化的语音输入,这样的个性化语音输入在多用户环境下尤为有用,因为系统可以准确辨别用户的声音,避免混淆和误识别。麦克风输入方式下的音频数据实时采集和处理,根据音色数据进行用户音色加权处理,这样的处理能够突出用户的独特声音特征,提高语音识别的准确性和自然度,通过根据加权音频数据的权重提取最优权重的音频数据,可以在语音输入中过滤掉噪音和杂音,提供更清晰、更可理解的语音输入。通过应用自然语言技术分析和理解音频输入的语义内容,从而生成更具意义和上下文的音频输出数据,有助于提高语音合成的质量,使得PDA设备可以以更自然的方式与用户进行交互,通过将音频输出数据传输回PDA设备进行反馈,用户可以听到更清晰、更自然和更富含语义的回应,提高了用户与设备的互动效果。然而,传统的PDA的数据输入方法能够能通过外部环境自动化识别用户所需的输入条件,提高了用户在不同环境下的输入体验,并且通过用户输入习惯优化用户的输入错误,以及用户的音色数据对用户输入的语音进行精准识别,实现了更精准、个性化的数据输入,进一步提升了PDA设备的实用性和用户满意度。
优选地,步骤S1包括以下步骤:
步骤S11:对PDA设备进行外部环境音频数据采集,生成外部音频数据;
步骤S12:对外部音频数据进行音频频谱图转换,生成音频频谱图;
步骤S13:对音频频谱图进行截断选取,生成截断频谱图;
步骤S14:对截断频谱图进行音频帧的振幅平方计算,生成振幅平方数据,并根据振幅平方数据进行积分,从而生成噪声强度数据。
本发明通过采集外部环境音频数据,PDA设备可以实时感知周围声音,这对于在不同环境中适应输入方式至关重要,可以帮助PDA设备判断噪声水平,从而更好地选择适当的输入方式,提高了用户体验。将外部音频数据转换成音频频谱图,有助于更详细地分析声音的频率成分,可以用于更准确地识别环境中的特定声音,例如语音、噪音或其他声音,为后续的处理提供了更多信息。通过截断选取特定频谱范围内的数据,可以将处理焦点放在特定频率带上,有助于提高计算效率和噪声强度数据的准确性,因为可能只有某些频率范围内的声音才会对噪声强度产生重要影响。将截断频谱图的振幅平方计算并进行积分,可以量化声音的强度,生成噪声强度数据,噪声强度数据是一个关键指标,可以用于自动判断环境的噪音水平,并触发输入方式的智能切换,这种自动适应性有助于用户在各种噪音环境下获得更好的用户体验。
优选地,步骤S2包括以下步骤:
步骤S21:根据预设的噪声强度阈值对噪声强度数据进行阈值判断,当噪声强度数据大于噪声强度阈值时,将噪声强度数据标记为高噪声数据,当噪声强度数据不大于噪声强度阈值时,将噪声强度数据标记为低噪声数据;
步骤S22:当噪声强度数据为高噪声数据时,将PDA设备的数据输入方式自动切换成键盘输入方式,并执行步骤S31;
步骤S23:当噪声强度数据为低噪声数据时,根据低噪声数据将PDA设备输入方式自动切换成麦克风输入方式,并执行步骤S41。
本发明通过预设的噪声强度阈值对噪声强度数据进行阈值判断,PDA设备可以实现智能的噪声过滤,这有助于设备更精确地识别环境中的噪声水平,将其分类为高噪声或低噪声情况,这种精细的噪声识别能力有助于提高PDA设备的智能性和适应性,确保设备根据实际情况做出最佳的输入方式切换决策。当噪声强度数据被明确定义为高噪声或低噪声时,PDA设备能够自动切换输入方式,使得设备对环境变化做出快速反应,提供最佳的数据输入方式,在高噪声环境中,自动切换到键盘输入方式有助于提高输入准确性,而在低噪声环境中,自动切换到麦克风输入方式提供了更自然的交互,这种自动切换增强了用户体验,同时降低了用户的操作负担。通过自动切换输入方式,PDA设备不仅提高了用户友好性,还提高了能效,用户无需手动切换输入方式,设备根据噪声水平智能地作出决策,这减轻了用户的操作烦恼,同时延长了设备的电池寿命,因为设备仅在必要时切换到更耗电的输入方式。
优选地,步骤S3包括以下步骤:
步骤S31:获取用户的历史键盘输入数据;
步骤S32:对历史键盘输入数据进行输入数据频繁项集数据提取,生成输入频繁数据;
步骤S33:利用自然语言技术对输入频繁数据进行语意解析,生成语意数据;
步骤S34:利用神经网络算法与语意数据进行用户输入行为的数学模型构建,生成优化输入行为模型;
步骤S35:将优化输入行为模型对键盘输入方式进行键盘输入方式优化,生成优化键盘输入方式;
步骤S36:根据优化键盘输入方式进行键盘输入数据实时采集,生成实时输入数据,将实时输入数据传输至优化输入行为模型进行输出数据优化预测,生成优化输出数据,将优化输出数据传输至PDA设备进行反馈。
本发明获取用户的历史键盘输入数据并提取输入频繁数据,这是了解用户输入行为和偏好的重要基础,通过挖掘历史数据捕获用户的输入模式、常用词汇和操作习惯,进而构建更准确的用户输入行为模型。通过自然语言技术对输入频繁数据进行语意解析,能够理解用户的输入背后的语义含义,有助于更精确地识别用户的意图。通过神经网络算法构建用户输入行为的数学模型,将语意数据与数学模型相结合,进一步提高了对用户输入的理解和预测能力。根据生成的优化输入行为模型,可以对键盘输入方式进行优化,以提供更快速、更准确的键盘输入,这种个性化的优化有助于降低用户的输入错误率,提高了操作效率和用户满意度。通过实时采集键盘输入数据并将其传输至优化输入行为模型进行输出数据的实时优化预测,实现即时的用户反馈和数据输入方式的优化,可以根据用户当前的输入行为和语义意图,在实时交互中提供更准确和个性化的建议,从而改善了用户与PDA设备的互动质量。
优选地,步骤S34包括以下步骤:
步骤S341:利用神经网络模型建立用户输入行为的映射关系,生成初始输入行为模型;
步骤S342:将语意数据进行时间序列上的数据划分,分别生成语意训练集以及语意测试集;
步骤S343:将语意训练集传输至初始输入行为模型进行模型训练,生成输入行为训练模型;
步骤S344:利用用户语意行为优化算法对输入行为训练模型进行模型优化,并利用语意测试集进行模型测试,生成优化输入行为模型。
本发明通过利用神经网络模型能够更精确地建立用户输入行为的映射关系,这意味着更准确地模拟和预测用户的输入习惯和行为,神经网络具有高度的灵活性和表达能力,可以更好地捕捉复杂的输入行为模式,从而提高了模型的准确性。将语意数据划分为语意训练集和语意测试集有助于建立更稳健的输入行为模型,语意训练集用于模型训练,而语意测试集用于模型测试,这种划分可以帮助系统验证模型的泛化性能,确保模型在不同输入情境下的稳定性和效果。通过将语意训练集传输至初始输入行为模型进行模型训练,能够不断地改进初始模型,提高模型的性能。用户语意行为优化算法则进一步增强了模型的效果,确保输入行为模型能够更好地匹配用户的个性化输入方式和语义意图,这意味着系统可以提供更准确的建议和更智能的输入方式,从而提高用户的满意度和操作效率。
优选地,步骤S344中的用户语意行为优化算法如下所示:
式中,θopt表示为优化后的模型参数,θ表示为模型的参数,N表示为语意训练集的样本数量,M表示为语音测试集的样本数量,T表示为模型训练及测试涉及的时间范围,ypred(t;θ)表示为在时间节点t下使用参数θ所预测的用户输入行为,ytrue(t)表示为在时间节点t下的真实用户输入行为,t表示为模型的时间节点,λ表示为正则化参数,R(θ)表示为用于奖惩模型的正则化项,ρ表示为优化后的模型参数的异常调整值。
本发明利用一种用户语意行为优化算法,该算法充分考虑了模型的参数θ表示为,语意训练集的样本数量N、语音测试集的样本数量M、模型训练及测试涉及的时间范围T、在时间节点t下使用参数θ所预测的用户输入行为ypred(t;θ)、在时间节点t下的真实用户输入行为ytrue(t)、模型的时间节点t、正则化参数λ、用于奖惩模型的正则化项R(θ)以及函数之间的相互作用关系,以形成函数关系式:
即,通过该函数关系式优化输入行为模型,该公式可以显著提高用户输入行为预测的准确性,因为它最小化了模型预测与实际观测之间的平方误差。模型的参数反映需要优化的变量,包括模型中的权重和偏置等;语意训练集中的样本数量,决定了训练过程中使用的训练数据量;语音测试集中的样本数量,用于模型的测试和泛化性能评估;模型训练和测试的时间范围,用于定义了积分的上限,用于捕捉模型的时间动态性。λ·R(θ)用于对模型的参数进行惩罚,以避免过度拟合。正则化的强度由λ控制。这个优化公式有助于提高输入行为模型的准确性、泛化性能和稳定性,通过在平方误差项、正则化项和异常值调整项之间的平衡,有助于改善PDA系统的数据输入方式,使其更好地适应用户行为和实际环境。利用优化后的模型参数的异常调整值ρ对函数关系式进行调整修正,减少异常数据或误差项带来的误差影响,从而更准确地生成优化后的模型参数θopt,提高了对输入行为训练模型进行模型优化的准确性和可靠性。同时该公式中的调整值可以根据实际情况进行调整,应用于输入行为训练模型不同的参数中,提高了算法的灵活性与适用性。
优选地,步骤S4包括以下步骤:
步骤S41:获取用户的历史语音数据;
步骤S42:对历史语音数据进行用户音色数据提取,生成音色数据;
步骤S43:根据麦克风输入方式进行音频输入数据实时采集处理,生成音频输入数据;
步骤S44:根据音频输入数据的每段音频数据进行初始权重分配,生成初始音频数据;
步骤S45:根据音色数据对初始音频数据进行加权处理,当初始音频数据的音色与音色数据相匹配时,增加匹配的初始音频数据的权重,当初始音频数据的音色与音色数据不匹配时,不做任何修改,以此生成加权音频数据;
步骤S46:根据加权音频数据的权重进行最优权重的音频数据提取,生成目标音频数据,并根据自然语言技术对目标音频数据进行语意优化,生成音频输出数据,将音频输出数据传输至PDA设备进行反馈。
本发明通过提取用户的音色数据能够更好地区分不同用户的声音特征。这为语音输入的个性化提供了基础,有助于PDA设备更准确地识别用户的语音指令,有助于提高语音识别的准确性,因为它可以区分不同用户的语音输入,从而减少了混淆和误识别。通过实时采集和处理音频输入数据,可以即时响应用户的语音输入,提供更自然的交互体验,这种实时性非常关键,因为用户期望语音识别和回应是即刻发生的,而不是需要延迟的,提高了用户满意度和互动效果。通过将音色数据与音频数据结合,可以更好地理解用户的语音输入,因为音色是声音的一个重要方面,加权处理可以根据音色数据调整每段音频数据的权重,从而更好地匹配用户的声音特征,有助于提高语音识别的准确性,尤其是在多用户环境下。通过应用自然语言技术对目标音频数据进行语意优化,生成更具语义意义和自然度的音频输出数据,提高了语音合成的质量,使PDA设备能够以更自然的方式与用户进行交互,通过将音频输出数据传输回PDA设备进行反馈,用户可以获得即时的改进输出结果,提高了用户的满意度和互动效果。
优选地,步骤S42包括以下步骤:
步骤S421:对历史语音数据进行音频频谱图转换,生成历史语音频谱图;
步骤S422:利用语音拟合算法对历史语音频谱图进行频谱拟合计算处理,生成拟合频谱段;
步骤S423:根据拟合频谱段进行共振频率分析,生成音色数据。
本发明将历史语音数据转换成音频频谱图,这是一种将声音信号表示为频率和振幅的方式,它提供了音频信号的频率成分,有助于更详细地分析和提取声音的特征,这是音色数据提取的基础,因为音色与声音的频率分布密切相关。通过应用语音拟合算法对历史语音频谱图进行频谱拟合计算处理,可以更精确地捕捉音色的信息,有助于提取声音的共振结构和特征,以更好地理解声音的音色特性,拟合频谱段的处理使得音色数据的提取更具准确性和可靠性。通过对拟合频谱段进行共振频率分析,可以识别声音中的共振频率,这是音色的关键组成部分,有助于将声音的特定共振特性转化为音色数据,使系统能够更好地理解和区分不同的音色,提高了语音识别和语音合成的准确性,从而提高了用户体验。
优选地,步骤S422中的语音拟合算法如下所示:
式中,P表示为拟合频谱段的拟合值,表示为待拟合语音频谱的分量数量,An表示为待拟合语音频谱的第n个分量的振幅,e表示为自然对数的底数,j表示为虚数单位,ω表示为语音信号的角频率,t表示为语音信号涉及的时间长度,αn表示为待拟合语音频谱的第n个分量的衰减速率,/>表示为待拟合语音频谱的额外分量数量,Bm表示为待拟合语音频谱的第m个额外分量的振幅,βm表示为待拟合语音频谱的第m个额外分量的衰减速率,γ表示为待拟合语音频谱的整体衰减速率,τ表示为拟合频谱段的拟合值的异常调整值。
本发明利用一种语音拟合算法,该算法充分考虑了待拟合语音频谱的分量数量待拟合语音频谱的第n个分量的振幅An、自然对数的底数e、虚数单位j、语音信号的角频率ω、语音信号涉及的时间长度t、待拟合语音频谱的第n个分量的衰减速率an、待拟合语音频谱的额外分量数量/>待拟合语音频谱的第m个额外分量的振幅Bm、待拟合语音频谱的第m个额外分量的衰减速率βm、待拟合语音频谱的整体衰减速率γ以及函数之间的相互作用关系,以形成函数关系式:
即,该函数关系式通过对待处理语音频谱进行分析,可以精确地提取所需频段的特征信息,有助于音色数据的准确提取。待拟合语音频谱的分量数量,用于语音信号中主要频率成分的数量;待拟合语音频谱的第n个分量的振幅,用于各个频率成分的振幅;虚数单位,满足j2=―1;语音信号的角频率,反映语音信号在时间和频率领域的关系;语音信号涉及的时间长度,反映在分析的时间窗口内进行频率分析;待拟合语音频谱的第n个分量的衰减速率,用于描述每个频率成分的衰减情况;待拟合语音频谱的额外分量数量,反映可能存在的额外频率成分的数量;待拟合语音频谱的第m个额外分量的振幅,用于描述额外频率成分的振幅;待拟合语音频谱的第m个额外分量的衰减速率,用于描述额外频率成分的衰减情况;待拟合语音频谱的整体衰减速率,反映整体频谱的衰减情况。该函数关系式提供了一种精确、灵活且可调节的方法,用于拟合特定频段的语音频谱,以便更好地提取音色数据,通过适应性地调整参数,该算法可以适用于不同频段和语音信号的处理,具有广泛的应用潜力。利用拟合频谱段的拟合值的异常调整值τ对函数关系式进行调整修正,减少异常数据或误差项带来的误差影响,从而更准确地生成拟合频谱段的拟合值P,提高了对历史语音频谱图进行频谱拟合计算处理的准确性和可靠性。同时该公式中的调整值可以根据实际情况进行调整,应用于不同的历史语音频谱图中,提高了算法的灵活性与适用性。
本说明书中提供一种用于PDA的数据输入系统,用于执行如上述所述的用于PDA的数据输入方法,该用于PDA的数据输入系统包括:
外部噪音采集模块,用于对PDA设备进行外部环境音频数据采集,生成外部音频数据;对外部音频数据进行噪声强度计算,从而生成噪声强度数据;
输入法设定模块,用于对噪声强度数据进行强度判定,当噪声强度数据过大时,将PDA设备的数据输入方式自动切换成键盘输入方式,并执行S3;当噪声强度数据过小时,将PDA设备输入方式自动切换成麦克风输入方式,并执行S4;
键盘输出模块,用于获取用户的历史键盘输入数据;利用神经网络算法与历史键盘输入数据进行用户输入行为的数学模型构建,生成优化输入行为模型;根据键盘输入方式进行键盘输入数据实时采集,生成实时输入数据,将实时输入数据传输至优化输入行为模型进行输出数据优化预测,生成优化输出数据,将优化输出数据传输至PDA设备进行反馈。
语音输出模块,用于获取用户的历史语音数据;对历史语音数据进行用户音色数据提取,生成音色数据;根据麦克风输入方式进行音频输入数据实时采集处理,生成音频输入数据;根据音色数据对音频输入数据进行用户音色加权处理,生成加权音频数据;根据加权音频数据的权重进行最优权重的音频数据提取,生成目标音频数据,并根据自然语言技术对目标音频数据进行语意优化,生成音频输出数据,将音频输出数据传输至PDA设备进行反馈。
本申请有益效果在于,本发明通过不断收集和分析外部环境音频数据,以及用户的历史数据,实现了PDA设备的智能适应性,可以根据噪声水平、用户的输入习惯和语音特征智能地选择和优化数据输入方式,从而提供更好的用户体验。通过建立用户输入行为和音色模型,该方法能够个性化地识别用户的输入模式和声音特征,有助于提供个性化的输入建议,从而减少输入错误率,提高用户满意度。整个方法强调了实时性,通过实时采集和处理音频或键盘输入数据,并即时反馈优化结果,确保了用户可以获得快速响应和更自然的交互。智能切换输入方式以及优化输入方式的步骤,有助于降低设备的能耗,会智能地根据噪声水平和用户需求切换输入方式,从而延长设备的电池寿命。步骤中的智能切换输入方式与优化输入行为模型构建相互协作,确保PDA设备在键盘输入方式下提供最佳的输入和建议,从而提高了用户的输入效率和满意度。步骤中的智能切换输入方式与音色数据提取,能够建立用户个性化的语音输入,针对用户语音输入的同时提高语音识别的准确率。
附图说明
图1为本发明一种用于PDA的数据输入方法的步骤流程示意图;
图2为图1中步骤S3的详细实施步骤流程示意图;
图3为图1中步骤S4的详细实施步骤流程示意图;
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
下面结合附图对本发明专利的技术方法进行清楚、完整的描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域所属的技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
此外,附图仅为本发明的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器方法和/或微控制器方法中实现这些功能实体。
应当理解的是,虽然在这里可能使用了术语“第一”、“第二”等等来描述各个单元,但是这些单元不应当受这些术语限制。使用这些术语仅仅是为了将一个单元与另一个单元进行区分。举例来说,在不背离示例性实施例的范围的情况下,第一单元可以被称为第二单元,并且类似地第二单元可以被称为第一单元。这里所使用的术语“和/或”包括其中一个或更多所列出的相关联项目的任意和所有组合。
为实现上述目的,请参阅图1至图3,本发明提供一种用于PDA的数据输入方法,包括以下步骤:
步骤S1:对PDA设备进行外部环境音频数据采集,生成外部音频数据;对外部音频数据进行噪声强度计算,从而生成噪声强度数据;
步骤S2:对噪声强度数据进行强度判定,当噪声强度数据过大时,将PDA设备的数据输入方式自动切换成键盘输入方式,并执行S3;当噪声强度数据过小时,将PDA设备输入方式自动切换成麦克风输入方式,并执行S4;
步骤S3:获取用户的历史键盘输入数据;利用神经网络算法与历史键盘输入数据进行用户输入行为的数学模型构建,生成优化输入行为模型;根据键盘输入方式进行键盘输入数据实时采集,生成实时输入数据,将实时输入数据传输至优化输入行为模型进行输出数据优化预测,生成优化输出数据,将优化输出数据传输至PDA设备进行反馈;
步骤S4:获取用户的历史语音数据;对历史语音数据进行用户音色数据提取,生成音色数据;根据麦克风输入方式进行音频输入数据实时采集处理,生成音频输入数据;根据音色数据对音频输入数据进行用户音色加权处理,生成加权音频数据;根据加权音频数据的权重进行最优权重的音频数据提取,生成目标音频数据,并根据自然语言技术对目标音频数据进行语意优化,生成音频输出数据,将音频输出数据传输至PDA设备进行反馈。
本发明通过对PDA设备进行外部环境音频数据采集,可以实时感知周围环境的声音,而后对这些外部音频数据进行噪声强度计算,得出噪声强度数据,为PDA设备提供了环境感知的能力,使其能够智能地适应不同的噪声水平环境。这种环境感知有助于提高PDA设备的用户体验,因为它可以在嘈杂的环境中自动切换至键盘输入方式,确保输入的准确性,同时在安静环境中切换至麦克风输入方式,提供更自然的语音交互体验,从而满足用户在不同环境下的需求,提高设备的可用性和实用性。通过对噪声强度数据的实时监测和判定,实现了PDA设备的自适应输入方式切换,从而深刻地提升了用户体验。当噪声强度数据高时,自动切换至键盘输入方式,有助于确保输入准确性,避免因环境噪音干扰而导致错误输入,提供了高度的操作稳定性,尤其在嘈杂的环境中,用户不再需要手动切换输入方式,减少了用户的操作负担。当噪声强度数据较低时,自动切换至麦克风输入方式,使PDA设备更适合进行语音输入,提供更自然的交互方式,有助于用户在安静环境下更轻松地使用设备,同时提高了设备的多样性和适应性,降低了用户感知到的操作复杂度,让PDA设备更加智能和智能化,使用户能够专注于任务而非设备设置,从而增强了设备的可用性、便捷性和用户满意度。基于用户的历史键盘输入数据,运用神经网络算法构建了一个个性化的用户输入行为数学模型,从而实现了高度优化的输入体验,通过分析和学习用户的过去键盘输入数据,系统能够深入了解用户的输入习惯、喜好和特征,进而构建一个针对每位用户的独特模型,有助于提高输入的准确性,更好地预测用户的下一步输入,并且实现了实时输入数据采集和实时优化预测,当用户使用键盘输入方式时,不仅能够收集当前输入数据,还能够将这些数据传输至优化输入行为模型进行实时分析和优化,这意味着系统能够即时响应用户的输入,提供实时的纠正和建议,从而减少输入错误和提高用户工作效率,通过将优化输出数据传输回PDA设备进行反馈,用户可以获得即时的改进建议,提升了用户与设备之间的互动质量。利用了用户的历史语音数据,通过多层处理和分析实现了高度个性化的音频输入和输出,提供了出色的用户体验,通过获取用户的历史语音数据提取用户的音色数据,这意味着系统能够识别和区分不同用户的声音特征,使得PDA设备能够更好地适应个性化的语音输入,这样的个性化语音输入在多用户环境下尤为有用,因为系统可以准确辨别用户的声音,避免混淆和误识别。麦克风输入方式下的音频数据实时采集和处理,根据音色数据进行用户音色加权处理,这样的处理能够突出用户的独特声音特征,提高语音识别的准确性和自然度,通过根据加权音频数据的权重提取最优权重的音频数据,可以在语音输入中过滤掉噪音和杂音,提供更清晰、更可理解的语音输入。通过应用自然语言技术分析和理解音频输入的语义内容,从而生成更具意义和上下文的音频输出数据,有助于提高语音合成的质量,使得PDA设备可以以更自然的方式与用户进行交互,通过将音频输出数据传输回PDA设备进行反馈,用户可以听到更清晰、更自然和更富含语义的回应,提高了用户与设备的互动效果。然而,传统的PDA的数据输入方法能够能通过外部环境自动化识别用户所需的输入条件,提高了用户在不同环境下的输入体验,并且通过用户输入习惯优化用户的输入错误,以及用户的音色数据对用户输入的语音进行精准识别,实现了更精准、个性化的数据输入,进一步提升了PDA设备的实用性和用户满意度。
本发明实施例中,参考图1所述,为本发明一种用于PDA的数据输入方法的步骤流程示意图,在本实施例中,所述用于PDA的数据输入方法包括以下步骤:
步骤S1:对PDA设备进行外部环境音频数据采集,生成外部音频数据;对外部音频数据进行噪声强度计算,从而生成噪声强度数据;
本发明实施例中,PDA设备启动了其内置麦克风,以开始外部环境音频数据的采集,这个麦克风能够捕捉到周围环境中的声音,包括用户说话、背景噪声和其他环境声音,这些声音以模拟信号的形式被传输到PDA设备的音频处理模块。PDA设备的音频处理模块对采集到的音频数据进行处理,首先将模拟音频信号转换成数字音频信号,以便进行后续的分析,针对这些数字音频数据,执行了频域分析,通常是通过快速傅立叶变换(FFT)等技术。在频域分析过程中将音频数据转换为频谱图,以显示不同频率成分的振幅。这个频谱图提供了有关声音的频率分布信息,包括噪声和语音信号,通过分析频谱图,系统可以识别噪声成分。从频谱图中提取噪声信号的成分,并计算其强度,噪声强度的计算可以采用各种方法,例如计算特定频率范围内的振幅平方的积分,这个过程生成了噪声强度数据,该数据表示了当前环境中的噪声水平。
步骤S2:对噪声强度数据进行强度判定,当噪声强度数据过大时,将PDA设备的数据输入方式自动切换成键盘输入方式,并执行S3;当噪声强度数据过小时,将PDA设备输入方式自动切换成麦克风输入方式,并执行S4;
本发明实施例中,通过噪声强度数据,并应用了一个预设的噪声强度阈值,该阈值可以根据设备和用户的需求进行调整。当噪声强度数据超过了预设的噪声强度阈值时,判定噪声强度过大,这可能是因为环境中存在大量噪声干扰,例如交通噪声或机器声音,在这种情况下,自动触发了输入方式的切换机制,将PDA设备的数据输入方式从当前的输入方式(可能是语音输入方式)切换成键盘输入方式。切换后,系统执行了步骤S3,其中包括获取用户的历史键盘输入数据、构建优化输入行为模型、实时采集键盘输入数据并进行输出数据的优化预测,有助于提高输入准确性和用户体验,尤其在高噪声环境下。如果噪声强度数据未超过噪声强度阈值,判定噪声强度足够小,允许继续使用当前的输入方式,在这种情况下,将PDA设备的输入方式保持为麦克风输入方式,并执行步骤S4。
步骤S3:获取用户的历史键盘输入数据;利用神经网络算法与历史键盘输入数据进行用户输入行为的数学模型构建,生成优化输入行为模型;根据键盘输入方式进行键盘输入数据实时采集,生成实时输入数据,将实时输入数据传输至优化输入行为模型进行输出数据优化预测,生成优化输出数据,将优化输出数据传输至PDA设备进行反馈;
本发明实施例中,PDA设备收集了用户的历史键盘输入数据,包括用户在过去的键盘输入记录,例如键盘按键、文本输入和输入频率等信息,这些数据用于了解用户的输入习惯和行为模式。利用神经网络算法,如决策树算法、支持向量机等,系统对历史键盘输入数据进行分析和处理,以构建用户输入行为的数学模型,即优化输入行为模型,这个模型考虑了用户的输入速度、文本选择偏好等因素,以便个性化地提供输入建议。实时监测键盘输入方式下的用户输入,收集实时输入数据,如当前按键的时间间隔、文本预测等信息,这些数据被传输至优化输入行为模型,用于实时的输出数据优化预测。优化输入行为模型会根据实时输入数据和用户的个性化行为模式生成优化输出数据,包括自动文本纠正、智能文本建议等功能,以提高用户的输入准确性和速度。最后,生成的优化输出数据被传输回PDA设备,用于改进键盘输入方式的用户体验,这意味着用户会得到更智能、个性化的键盘输入支持,使输入更加高效和准确。
步骤S4:获取用户的历史语音数据;对历史语音数据进行用户音色数据提取,生成音色数据;根据麦克风输入方式进行音频输入数据实时采集处理,生成音频输入数据;根据音色数据对音频输入数据进行用户音色加权处理,生成加权音频数据;根据加权音频数据的权重进行最优权重的音频数据提取,生成目标音频数据,并根据自然语言技术对目标音频数据进行语意优化,生成音频输出数据,将音频输出数据传输至PDA设备进行反馈。
本发明实施例中,PDA设备收集了用户的历史语音数据,这包括用户在过去的语音指令、语音搜索和语音消息等录音数据,这些数据用于了解用户的语音特征和音色。对历史语音数据进行分析,使用音频处理技术提取了用户的音色数据,包括音频频谱图转换、频谱拟合、共振频率分析等步骤,以生成详细的音色数据,反映了用户的语音特点,通过麦克风采集了实时的音频输入数据,包括用户当前的语音输入。这些实时数据将用于后续的加权和优化步骤。将实时音频数据与用户的音色数据进行匹配和加权处理,当实时音频数据的音色与用户的音色数据相匹配时,增加相应音频数据的权重,以提高其重要性,确保了用户的声音在后续处理中得到更好的保留和优化。根据加权音频数据的权重,选择了最优权重的音频数据段,确保了只有最相关的音频数据被保留,以减少冗余信息,使用自然语言技术对最优权重的音频数据进行语意优化,包括语音识别、文本合成等技术,以提高语音指令的准确性和语音回应的自然度,生成的音频输出数据被传输回PDA设备,用于执行语音指令、提供自然语言回应等功能,从而改善了PDA设备的语音交互体验。
优选地,步骤S1包括以下步骤:
步骤S11:对PDA设备进行外部环境音频数据采集,生成外部音频数据;
步骤S12:对外部音频数据进行音频频谱图转换,生成音频频谱图;
步骤S13:对音频频谱图进行截断选取,生成截断频谱图;
步骤S14:对截断频谱图进行音频帧的振幅平方计算,生成振幅平方数据,并根据振幅平方数据进行积分,从而生成噪声强度数据。
本发明通过采集外部环境音频数据,PDA设备可以实时感知周围声音,这对于在不同环境中适应输入方式至关重要,可以帮助PDA设备判断噪声水平,从而更好地选择适当的输入方式,提高了用户体验。将外部音频数据转换成音频频谱图,有助于更详细地分析声音的频率成分,可以用于更准确地识别环境中的特定声音,例如语音、噪音或其他声音,为后续的处理提供了更多信息。通过截断选取特定频谱范围内的数据,可以将处理焦点放在特定频率带上,有助于提高计算效率和噪声强度数据的准确性,因为可能只有某些频率范围内的声音才会对噪声强度产生重要影响。将截断频谱图的振幅平方计算并进行积分,可以量化声音的强度,生成噪声强度数据,噪声强度数据是一个关键指标,可以用于自动判断环境的噪音水平,并触发输入方式的智能切换,这种自动适应性有助于用户在各种噪音环境下获得更好的用户体验。
本发明实施例中,PDA设备启动其内置麦克风,开始采集外部环境音频数据。这个过程包括捕获周围环境中的声音,例如用户的语音、背景噪声、汽车喇叭声等。音频数据以模拟信号的形式传输至PDA设备的音频处理模块。将模拟音频信号转换成数字音频信号,以便进行后续的分析,使用信号处理技术如快速傅立叶变换(FFT),将音频数据转换为频谱图,这个频谱图显示了不同频率成分的振幅,用于表示声音的频谱信息。对音频频谱图进行截断和选取,意味着系统选择了特定频率范围内的频谱数据,通常是与人类语音频率范围相关的部分,有助于减少计算复杂性和提高噪声分析的效率。对截断频谱图进行音频帧的振幅平方计算,这意味着每个频谱图的帧被分析,并计算了每个帧的振幅平方,这些振幅平方值表示了每个时间段内声音的强度,这些振幅平方值被积分,以考虑声音强度的累积效应,最终生成噪声强度数据。
优选地,步骤S2包括以下步骤:
步骤S21:根据预设的噪声强度阈值对噪声强度数据进行阈值判断,当噪声强度数据大于噪声强度阈值时,将噪声强度数据标记为高噪声数据,当噪声强度数据不大于噪声强度阈值时,将噪声强度数据标记为低噪声数据;
步骤S22:当噪声强度数据为高噪声数据时,将PDA设备的数据输入方式自动切换成键盘输入方式,并执行步骤S31;
步骤S23:当噪声强度数据为低噪声数据时,根据低噪声数据将PDA设备输入方式自动切换成麦克风输入方式,并执行步骤S41。
本发明通过预设的噪声强度阈值对噪声强度数据进行阈值判断,PDA设备可以实现智能的噪声过滤,这有助于设备更精确地识别环境中的噪声水平,将其分类为高噪声或低噪声情况,这种精细的噪声识别能力有助于提高PDA设备的智能性和适应性,确保设备根据实际情况做出最佳的输入方式切换决策。当噪声强度数据被明确定义为高噪声或低噪声时,PDA设备能够自动切换输入方式,使得设备对环境变化做出快速反应,提供最佳的数据输入方式,在高噪声环境中,自动切换到键盘输入方式有助于提高输入准确性,而在低噪声环境中,自动切换到麦克风输入方式提供了更自然的交互,这种自动切换增强了用户体验,同时降低了用户的操作负担。通过自动切换输入方式,PDA设备不仅提高了用户友好性,还提高了能效,用户无需手动切换输入方式,设备根据噪声水平智能地作出决策,这减轻了用户的操作烦恼,同时延长了设备的电池寿命,因为设备仅在必要时切换到更耗电的输入方式。
本发明实施例中,基于预设的噪声强度阈值进行阈值判断,例如假设阈值设置为60分贝,会将实际测得的噪声强度数据与此阈值进行比较,如果测得的噪声强度数据大于60分贝,则将其标记为高噪声数据;如果噪声强度数据不大于60分贝,则将其标记为低噪声数据,这个阈值的设定可以根据具体的应用场景和环境要求进行调整。当确定噪声强度数据为高噪声数据时,自动执行数据输入方式的切换,例如当前数据输入方式可能是语音输入,但由于环境中的高噪声水平,会智能地将输入方式切换至键盘输入。这样,用户可以更可靠地输入数据,而不受环境噪声的干扰。如果噪声强度数据被判定为低噪声数据,将根据这一判断自动切换数据输入方式,例如当前输入方式是键盘输入,但噪声水平很低,会智能地将输入方式切换至麦克风输入,提供更便捷的语音输入体验,这种切换确保了用户在不同的环境中能够选择最适合的数据输入方式。
优选地,步骤S3包括以下步骤:
步骤S31:获取用户的历史键盘输入数据;
步骤S32:对历史键盘输入数据进行输入数据频繁项集数据提取,生成输入频繁数据;
步骤S33:利用自然语言技术对输入频繁数据进行语意解析,生成语意数据;
步骤S34:利用神经网络算法与语意数据进行用户输入行为的数学模型构建,生成优化输入行为模型;
步骤S35:将优化输入行为模型对键盘输入方式进行键盘输入方式优化,生成优化键盘输入方式;
步骤S36:根据优化键盘输入方式进行键盘输入数据实时采集,生成实时输入数据,将实时输入数据传输至优化输入行为模型进行输出数据优化预测,生成优化输出数据,将优化输出数据传输至PDA设备进行反馈。
本发明获取用户的历史键盘输入数据并提取输入频繁数据,这是了解用户输入行为和偏好的重要基础,通过挖掘历史数据捕获用户的输入模式、常用词汇和操作习惯,进而构建更准确的用户输入行为模型。通过自然语言技术对输入频繁数据进行语意解析,能够理解用户的输入背后的语义含义,有助于更精确地识别用户的意图。通过神经网络算法构建用户输入行为的数学模型,将语意数据与数学模型相结合,进一步提高了对用户输入的理解和预测能力。根据生成的优化输入行为模型,可以对键盘输入方式进行优化,以提供更快速、更准确的键盘输入,这种个性化的优化有助于降低用户的输入错误率,提高了操作效率和用户满意度。通过实时采集键盘输入数据并将其传输至优化输入行为模型进行输出数据的实时优化预测,实现即时的用户反馈和数据输入方式的优化,可以根据用户当前的输入行为和语义意图,在实时交互中提供更准确和个性化的建议,从而改善了用户与PDA设备的互动质量。
作为本发明的一个实例,参考图2所示,为图1中步骤S3的详细实施步骤流程示意图,在本实例中所述步骤S3包括:
步骤S31:获取用户的历史键盘输入数据;
本发明实施例中,获取用户的历史键盘输入数据。这些数据包括用户在过去的键盘输入操作中输入的文字、命令、搜索词等,这些数据被用于了解用户的输入偏好和行为。
步骤S32:对历史键盘输入数据进行输入数据频繁项集数据提取,生成输入频繁数据;
本发明实施例中,对历史键盘输入数据进行分析,从中提取输入数据的频繁项集,频繁项集是指在用户历史输入中经常出现的文字或命令组合,例如用户频繁输入“发送邮件”和“查看日历”,这些组合将被识别为频繁项集,有助于了解用户的常见输入习惯。
步骤S33:利用自然语言技术对输入频繁数据进行语意解析,生成语意数据;
本发明实施例中,利用自然语言技术对提取的频繁项集数据进行语意解析,目标是理解用户输入的含义和意图,例如可以理解“发送邮件”表示用户希望发送电子邮件,这样的语意解析有助于更深入地理解用户的输入。
步骤S34:利用神经网络算法与语意数据进行用户输入行为的数学模型构建,生成优化输入行为模型;
本发明实施例中,利用神经网络算法与语意数据进行数学模型的构建,这个模型可以捕捉用户输入行为的模式和趋势,通过训练神经网络自动学习用户输入行为的复杂性,从而更好地预测用户的下一步输入。
步骤S35:将优化输入行为模型对键盘输入方式进行键盘输入方式优化,生成优化键盘输入方式;
本发明实施例中,生成的优化输入行为模型被配置用于优化键盘输入方式,例如模型发现用户更倾向于使用特定命令,可以在键盘上推荐或预测这些命令,以提高输入效率。
步骤S36:根据优化键盘输入方式进行键盘输入数据实时采集,生成实时输入数据,将实时输入数据传输至优化输入行为模型进行输出数据优化预测,生成优化输出数据,将优化输出数据传输至PDA设备进行反馈。
本发明实施例中,根据优化键盘输入方式进行实时键盘输入数据的采集,包括监控用户在键盘上的输入,并实时将这些数据传输至优化输入行为模型,模型根据实时输入数据进行输出数据的优化预测,生成更准确和符合用户意图的输出,优化的输出数据传输回PDA设备,提供更智能和高效的键盘输入体验。
优选地,步骤S34包括以下步骤:
步骤S341:利用神经网络模型建立用户输入行为的映射关系,生成初始输入行为模型;
步骤S342:将语意数据进行时间序列上的数据划分,分别生成语意训练集以及语意测试集;
步骤S343:将语意训练集传输至初始输入行为模型进行模型训练,生成输入行为训练模型;
步骤S344:利用用户语意行为优化算法对输入行为训练模型进行模型优化,并利用语意测试集进行模型测试,生成优化输入行为模型。
本发明通过利用神经网络模型能够更精确地建立用户输入行为的映射关系,这意味着更准确地模拟和预测用户的输入习惯和行为,神经网络具有高度的灵活性和表达能力,可以更好地捕捉复杂的输入行为模式,从而提高了模型的准确性。将语意数据划分为语意训练集和语意测试集有助于建立更稳健的输入行为模型,语意训练集用于模型训练,而语意测试集用于模型测试,这种划分可以帮助系统验证模型的泛化性能,确保模型在不同输入情境下的稳定性和效果。通过将语意训练集传输至初始输入行为模型进行模型训练,能够不断地改进初始模型,提高模型的性能。用户语意行为优化算法则进一步增强了模型的效果,确保输入行为模型能够更好地匹配用户的个性化输入方式和语义意图,这意味着系统可以提供更准确的建议和更智能的输入方式,从而提高用户的满意度和操作效率。
本发明实施例中,使用神经网络模型来建立用户输入行为的映射关系,从而生成初始输入行为模型,这个模型可以是深度神经网络,它接受语意数据和与之相关的上下文信息作为输入,并尝试预测用户可能采取的下一步输入行为,例如模型可以学会用户倾向于在特定上下文下输入哪些特定词汇或命令。语意数据被进行时间序列上的数据划分,为了创建训练和测试模型的数据集,数据被分为两部分:语意训练集和语意测试集,语意训练集用于训练模型,而语意测试集用于评估模型的性能。语意训练集被传输至初始输入行为模型,以进行模型的训练,在训练过程中,模型会学会从语意数据中提取输入行为的模式和关联性,这个过程涉及到神经网络的反向传播和权重调整,以最小化预测误差。使用用户语意行为优化算法对初始输入行为模型进行进一步的优化,这个算法可以根据模型在语意测试集上的性能表现,调整模型的参数和结构,以提高其准确性和泛化能力,这个过程可以是一个迭代的优化过程,直到模型达到满意的性能水平。
优选地,步骤S344中的用户语意行为优化算法如下所示:
/>
式中,θopt表示为优化后的模型参数,θ表示为模型的参数,N表示为语意训练集的样本数量,M表示为语音测试集的样本数量,T表示为模型训练及测试涉及的时间范围,ypred(t;θ)表示为在时间节点t下使用参数θ所预测的用户输入行为,ytrue(t)表示为在时间节点t下的真实用户输入行为,t表示为模型的时间节点,λ表示为正则化参数,R(θ)表示为用于奖惩模型的正则化项,ρ表示为优化后的模型参数的异常调整值。
本发明利用一种用户语意行为优化算法,该算法充分考虑了模型的参数θ表示为,语意训练集的样本数量N、语音测试集的样本数量M、模型训练及测试涉及的时间范围T、在时间节点t下使用参数θ所预测的用户输入行为ypred(t;θ)、在时间节点t下的真实用户输入行为ytrue(t)、模型的时间节点t、正则化参数λ、用于奖惩模型的正则化项R(θ)以及函数之间的相互作用关系,以形成函数关系式:
即,通过该函数关系式优化输入行为模型,该公式可以显著提高用户输入行为预测的准确性,因为它最小化了模型预测与实际观测之间的平方误差。模型的参数反映需要优化的变量,包括模型中的权重和偏置等;语意训练集中的样本数量,决定了训练过程中使用的训练数据量;语音测试集中的样本数量,用于模型的测试和泛化性能评估;模型训练和测试的时间范围,用于定义了积分的上限,用于捕捉模型的时间动态性。λ·R(θ)用于对模型的参数进行惩罚,以避免过度拟合。正则化的强度由λ控制。这个优化公式有助于提高输入行为模型的准确性、泛化性能和稳定性,通过在平方误差项、正则化项和异常值调整项之间的平衡,有助于改善PDA系统的数据输入方式,使其更好地适应用户行为和实际环境。利用优化后的模型参数的异常调整值ρ对函数关系式进行调整修正,减少异常数据或误差项带来的误差影响,从而更准确地生成优化后的模型参数θopt,提高了对输入行为训练模型进行模型优化的准确性和可靠性。同时该公式中的调整值可以根据实际情况进行调整,应用于输入行为训练模型不同的参数中,提高了算法的灵活性与适用性。
优选地,步骤S4包括以下步骤:
步骤S41:获取用户的历史语音数据;
步骤S42:对历史语音数据进行用户音色数据提取,生成音色数据;
步骤S43:根据麦克风输入方式进行音频输入数据实时采集处理,生成音频输入数据;
步骤S44:根据音频输入数据的每段音频数据进行初始权重分配,生成初始音频数据;
步骤S45:根据音色数据对初始音频数据进行加权处理,当初始音频数据的音色与音色数据相匹配时,增加匹配的初始音频数据的权重,当初始音频数据的音色与音色数据不匹配时,不做任何修改,以此生成加权音频数据;
步骤S46:根据加权音频数据的权重进行最优权重的音频数据提取,生成目标音频数据,并根据自然语言技术对目标音频数据进行语意优化,生成音频输出数据,将音频输出数据传输至PDA设备进行反馈。
本发明通过提取用户的音色数据能够更好地区分不同用户的声音特征。这为语音输入的个性化提供了基础,有助于PDA设备更准确地识别用户的语音指令,有助于提高语音识别的准确性,因为它可以区分不同用户的语音输入,从而减少了混淆和误识别。通过实时采集和处理音频输入数据,可以即时响应用户的语音输入,提供更自然的交互体验,这种实时性非常关键,因为用户期望语音识别和回应是即刻发生的,而不是需要延迟的,提高了用户满意度和互动效果。通过将音色数据与音频数据结合,可以更好地理解用户的语音输入,因为音色是声音的一个重要方面,加权处理可以根据音色数据调整每段音频数据的权重,从而更好地匹配用户的声音特征,有助于提高语音识别的准确性,尤其是在多用户环境下。通过应用自然语言技术对目标音频数据进行语意优化,生成更具语义意义和自然度的音频输出数据,提高了语音合成的质量,使PDA设备能够以更自然的方式与用户进行交互,通过将音频输出数据传输回PDA设备进行反馈,用户可以获得即时的改进输出结果,提高了用户的满意度和互动效果。
作为本发明的一个实例,参考图3所示,为图1中步骤S4的详细实施步骤流程示意图,在本实例中所述步骤S4包括:
步骤S41:获取用户的历史语音数据;
本发明实施例中,获取用户的历史语音数据。这些数据可以包括用户在过去的语音交互中录制的音频片段,例如语音指令、语音搜索或语音对话,这些数据用于分析用户的发音、语调和语音特点。
步骤S42:对历史语音数据进行用户音色数据提取,生成音色数据;
本发明实施例中,对历史语音数据进行用户音色数据提取。音色数据反映了用户的声音特征,包括音高、音质、音速等,提取音色数据通常涉及将语音信号转换为频谱图,并从中提取与音色有关的特征。这可以帮助系统了解用户的声音特点,如男性、女性、年龄等。
步骤S43:根据麦克风输入方式进行音频输入数据实时采集处理,生成音频输入数据;
本发明实施例中,使用麦克风输入方式实时采集音频输入数据,这意味着会监听用户当前的语音输入,例如用户说话或发出声音,这些实时音频数据将用于后续步骤的音色匹配和优化。
步骤S44:根据音频输入数据的每段音频数据进行初始权重分配,生成初始音频数据;
本发明实施例中,根据音频输入数据的每段音频数据进行初始权重分配,每个音频片段可以被分配一个初始权重,反映其重要性或相关性,这可以用于区分用户是否重复了某个命令或词汇,并为后续加权处理提供基础。
步骤S45:根据音色数据对初始音频数据进行加权处理,当初始音频数据的音色与音色数据相匹配时,增加匹配的初始音频数据的权重,当初始音频数据的音色与音色数据不匹配时,不做任何修改,以此生成加权音频数据;
本发明实施例中,使用音色数据对初始音频数据进行加权处理。系统会比较实时音频数据的音色特征与历史音色数据,当初始音频数据的音色与音色数据相匹配时,增加匹配的初始音频数据的权重,反之则保持权重不变,有助于系统更好地理解和处理用户的语音输入,针对提取出用户的音频数据,提高识别准确性。
步骤S46:根据加权音频数据的权重进行最优权重的音频数据提取,生成目标音频数据,并根据自然语言技术对目标音频数据进行语意优化,生成音频输出数据,将音频输出数据传输至PDA设备进行反馈。
本发明实施例中,根据加权音频数据的权重进行最优权重的音频数据提取,意味着将根据权重选择最相关的音频片段,组合它们以生成目标音频数据,使用自然语言技术对目标音频数据进行语意优化,这包括语音识别、语法分析和语义理解等处理,以确保生成的音频输出数据与用户的语音意图相符,音频输出数据传输回PDA设备,为用户提供更智能和精确的语音交互体验。
优选地,步骤S42包括以下步骤:
步骤S421:对历史语音数据进行音频频谱图转换,生成历史语音频谱图;
步骤S422:利用语音拟合算法对历史语音频谱图进行频谱拟合计算处理,生成拟合频谱段;
步骤S423:根据拟合频谱段进行共振频率分析,生成音色数据。
本发明将历史语音数据转换成音频频谱图,这是一种将声音信号表示为频率和振幅的方式,它提供了音频信号的频率成分,有助于更详细地分析和提取声音的特征,这是音色数据提取的基础,因为音色与声音的频率分布密切相关。通过应用语音拟合算法对历史语音频谱图进行频谱拟合计算处理,可以更精确地捕捉音色的信息,有助于提取声音的共振结构和特征,以更好地理解声音的音色特性,拟合频谱段的处理使得音色数据的提取更具准确性和可靠性。通过对拟合频谱段进行共振频率分析,可以识别声音中的共振频率,这是音色的关键组成部分,有助于将声音的特定共振特性转化为音色数据,使系统能够更好地理解和区分不同的音色,提高了语音识别和语音合成的准确性,从而提高了用户体验。
本发明实施例中,对历史语音数据进行音频频谱图转换,将语音信号转化为频谱图,通常使用傅里叶变换或其他频域分析方法,频谱图显示了语音信号在不同频率上的能量分布,这是后续音色分析的基础。利用语音拟合算法对历史语音频谱图进行频谱拟合计算处理,涉及拟合实际频谱图的数学模型,以便捕捉音频信号的频谱特征,拟合可以使用各种数学模型,语音拟合算法针对于将语音进行拟合,以得到最为匹配的用户音频。根据拟合频谱段进行共振频率分析,以生成音色数据,共振频率分析有助于确定音色特征,如共振峰的位置和强度,这些特征反映了声音的音质和音色,通过分析拟合频谱段中的共振频率,生成关于语音的音色数据,如音高、音质和共振峰的特征。
优选地,步骤S422中的语音拟合算法如下所示:
式中,P表示为拟合频谱段的拟合值,表示为待拟合语音频谱的分量数量,An表示为待拟合语音频谱的第n个分量的振幅,e表示为自然对数的底数,j表示为虚数单位,ω表示为语音信号的角频率,t表示为语音信号涉及的时间长度,αn表示为待拟合语音频谱的第n个分量的衰减速率,/>表示为待拟合语音频谱的额外分量数量,Bm表示为待拟合语音频谱的第m个额外分量的振幅,βm表示为待拟合语音频谱的第m个额外分量的衰减速率,γ表示为待拟合语音频谱的整体衰减速率,τ表示为拟合频谱段的拟合值的异常调整值。
本发明利用一种语音拟合算法,该算法充分考虑了待拟合语音频谱的分量数量待拟合语音频谱的第n个分量的振幅An、自然对数的底数e、虚数单位j、语音信号的角频率ω、语音信号涉及的时间长度t、待拟合语音频谱的第n个分量的衰减速率αn、待拟合语音频谱的额外分量数量/>待拟合语音频谱的第m个额外分量的振幅Bm、待拟合语音频谱的第m个额外分量的衰减速率βm、待拟合语音频谱的整体衰减速率γ以及函数之间的相互作用关系,以形成函数关系式:
即,该函数关系式通过对待处理语音频谱进行分析,可以精确地提取所需频段的特征信息,有助于音色数据的准确提取。待拟合语音频谱的分量数量,用于语音信号中主要频率成分的数量;待拟合语音频谱的第n个分量的振幅,用于各个频率成分的振幅;虚数单位,满足j2=―1;语音信号的角频率,反映语音信号在时间和频率领域的关系;语音信号涉及的时间长度,反映在分析的时间窗口内进行频率分析;待拟合语音频谱的第n个分量的衰减速率,用于描述每个频率成分的衰减情况;待拟合语音频谱的额外分量数量,反映可能存在的额外频率成分的数量;待拟合语音频谱的第m个额外分量的振幅,用于描述额外频率成分的振幅;待拟合语音频谱的第m个额外分量的衰减速率,用于描述额外频率成分的衰减情况;待拟合语音频谱的整体衰减速率,反映整体频谱的衰减情况。该函数关系式提供了一种精确、灵活且可调节的方法,用于拟合特定频段的语音频谱,以便更好地提取音色数据,通过适应性地调整参数,该算法可以适用于不同频段和语音信号的处理,具有广泛的应用潜力。利用拟合频谱段的拟合值的异常调整值τ对函数关系式进行调整修正,减少异常数据或误差项带来的误差影响,从而更准确地生成拟合频谱段的拟合值P,提高了对历史语音频谱图进行频谱拟合计算处理的准确性和可靠性。同时该公式中的调整值可以根据实际情况进行调整,应用于不同的历史语音频谱图中,提高了算法的灵活性与适用性。
本说明书中提供一种用于PDA的数据输入系统,用于执行如上述所述的用于PDA的数据输入方法,该用于PDA的数据输入系统包括:
外部噪音采集模块,用于对PDA设备进行外部环境音频数据采集,生成外部音频数据;对外部音频数据进行噪声强度计算,从而生成噪声强度数据;
输入法设定模块,用于对噪声强度数据进行强度判定,当噪声强度数据过大时,将PDA设备的数据输入方式自动切换成键盘输入方式,并执行S3;当噪声强度数据过小时,将PDA设备输入方式自动切换成麦克风输入方式,并执行S4;
键盘输出模块,用于获取用户的历史键盘输入数据;利用神经网络算法与历史键盘输入数据进行用户输入行为的数学模型构建,生成优化输入行为模型;根据键盘输入方式进行键盘输入数据实时采集,生成实时输入数据,将实时输入数据传输至优化输入行为模型进行输出数据优化预测,生成优化输出数据,将优化输出数据传输至PDA设备进行反馈。
语音输出模块,用于获取用户的历史语音数据;对历史语音数据进行用户音色数据提取,生成音色数据;根据麦克风输入方式进行音频输入数据实时采集处理,生成音频输入数据;根据音色数据对音频输入数据进行用户音色加权处理,生成加权音频数据;根据加权音频数据的权重进行最优权重的音频数据提取,生成目标音频数据,并根据自然语言技术对目标音频数据进行语意优化,生成音频输出数据,将音频输出数据传输至PDA设备进行反馈。
本申请有益效果在于,本发明通过不断收集和分析外部环境音频数据,以及用户的历史数据,实现了PDA设备的智能适应性,可以根据噪声水平、用户的输入习惯和语音特征智能地选择和优化数据输入方式,从而提供更好的用户体验。通过建立用户输入行为和音色模型,该方法能够个性化地识别用户的输入模式和声音特征,有助于提供个性化的输入建议,从而减少输入错误率,提高用户满意度。整个方法强调了实时性,通过实时采集和处理音频或键盘输入数据,并即时反馈优化结果,确保了用户可以获得快速响应和更自然的交互。智能切换输入方式以及优化输入方式的步骤,有助于降低设备的能耗,会智能地根据噪声水平和用户需求切换输入方式,从而延长设备的电池寿命。步骤中的智能切换输入方式与优化输入行为模型构建相互协作,确保PDA设备在键盘输入方式下提供最佳的输入和建议,从而提高了用户的输入效率和满意度。步骤中的智能切换输入方式与音色数据提取,能够建立用户个性化的语音输入,针对用户语音输入的同时提高语音识别的准确率。
因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在申请文件的等同要件的含义和范围内的所有变化涵括在本发明内。
以上所述仅是本发明的具体实施方式,使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所发明的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种用于PDA的数据输入方法,其特征在于,包括以下步骤:
步骤S1:对PDA设备进行外部环境音频数据采集,生成外部音频数据;对外部音频数据进行噪声强度计算,从而生成噪声强度数据;
步骤S2:对噪声强度数据进行强度判定,当噪声强度数据过大时,将PDA设备的数据输入方式自动切换成键盘输入方式,并执行S3;当噪声强度数据过小时,将PDA设备输入方式自动切换成麦克风输入方式,并执行S4;
步骤S3:获取用户的历史键盘输入数据;利用神经网络算法与历史键盘输入数据进行用户输入行为的数学模型构建,生成优化输入行为模型;根据键盘输入方式进行键盘输入数据实时采集,生成实时输入数据,将实时输入数据传输至优化输入行为模型进行输出数据优化预测,生成优化输出数据,将优化输出数据传输至PDA设备进行反馈;
步骤S4:获取用户的历史语音数据;对历史语音数据进行用户音色数据提取,生成音色数据;根据麦克风输入方式进行音频输入数据实时采集处理,生成音频输入数据;根据音色数据对音频输入数据进行用户音色加权处理,生成加权音频数据;根据加权音频数据的权重进行最优权重的音频数据提取,生成目标音频数据,并根据自然语言技术对目标音频数据进行语意优化,生成音频输出数据,将音频输出数据传输至PDA设备进行反馈。
2.根据权利要求1所述的用于PDA的数据输入方法,其特征在于,步骤S1包括以下步骤:
步骤S11:对PDA设备进行外部环境音频数据采集,生成外部音频数据;
步骤S12:对外部音频数据进行音频频谱图转换,生成音频频谱图;
步骤S13:对音频频谱图进行截断选取,生成截断频谱图;
步骤S14:对截断频谱图进行音频帧的振幅平方计算,生成振幅平方数据,并根据振幅平方数据进行积分,从而生成噪声强度数据。
3.根据权利要求2所述的用于PDA的数据输入方法,其特征在于,步骤S2包括以下步骤:
步骤S21:根据预设的噪声强度阈值对噪声强度数据进行阈值判断,当噪声强度数据大于噪声强度阈值时,将噪声强度数据标记为高噪声数据,当噪声强度数据不大于噪声强度阈值时,将噪声强度数据标记为低噪声数据;
步骤S22:当噪声强度数据为高噪声数据时,将PDA设备的数据输入方式自动切换成键盘输入方式,并执行步骤S31;
步骤S23:当噪声强度数据为低噪声数据时,根据低噪声数据将PDA设备输入方式自动切换成麦克风输入方式,并执行步骤S41。
4.根据权利要求3所述的用于PDA的数据输入方法,其特征在于,步骤S3包括以下步骤:
步骤S31:获取用户的历史键盘输入数据;
步骤S32:对历史键盘输入数据进行输入数据频繁项集数据提取,生成输入频繁数据;
步骤S33:利用自然语言技术对输入频繁数据进行语意解析,生成语意数据;
步骤S34:利用神经网络算法与语意数据进行用户输入行为的数学模型构建,生成优化输入行为模型;
步骤S35:将优化输入行为模型对键盘输入方式进行键盘输入方式优化,生成优化键盘输入方式;
步骤S36:根据优化键盘输入方式进行键盘输入数据实时采集,生成实时输入数据,将实时输入数据传输至优化输入行为模型进行输出数据优化预测,生成优化输出数据,将优化输出数据传输至PDA设备进行反馈。
5.根据权利要求4所述的用于PDA的数据输入方法,其特征在于,步骤S34包括以下步骤:
步骤S341:利用神经网络模型建立用户输入行为的映射关系,生成初始输入行为模型;
步骤S342:将语意数据进行时间序列上的数据划分,分别生成语意训练集以及语意测试集;
步骤S343:将语意训练集传输至初始输入行为模型进行模型训练,生成输入行为训练模型;
步骤S344:利用用户语意行为优化算法对输入行为训练模型进行模型优化,并利用语意测试集进行模型测试,生成优化输入行为模型。
6.根据权利要求5所述的用于PDA的数据输入方法,其特征在于,步骤S344中的用户语意行为优化算法如下所示:
式中,θopt表示为优化后的模型参数,θ表示为模型的参数,N表示为语意训练集的样本数量,M表示为语音测试集的样本数量,T表示为模型训练及测试涉及的时间范围,ypred(t;θ)表示为在时间节点t下使用参数θ所预测的用户输入行为,ytrue(t)表示为在时间节点t下的真实用户输入行为,t表示为模型的时间节点,λ表示为正则化参数,R(θ)表示为用于奖惩模型的正则化项,ρ表示为优化后的模型参数的异常调整值。
7.根据权利要求3所述的用于PDA的数据输入方法,其特征在于,步骤S4包括以下步骤:
步骤S41:获取用户的历史语音数据;
步骤S42:对历史语音数据进行用户音色数据提取,生成音色数据;
步骤S43:根据麦克风输入方式进行音频输入数据实时采集处理,生成音频输入数据;
步骤S44:根据音频输入数据的每段音频数据进行初始权重分配,生成初始音频数据;
步骤S45:根据音色数据对初始音频数据进行加权处理,当初始音频数据的音色与音色数据相匹配时,增加匹配的初始音频数据的权重,当初始音频数据的音色与音色数据不匹配时,不做任何修改,以此生成加权音频数据;
步骤S46:根据加权音频数据的权重进行最优权重的音频数据提取,生成目标音频数据,并根据自然语言技术对目标音频数据进行语意优化,生成音频输出数据,将音频输出数据传输至PDA设备进行反馈。
8.根据权利要求7所述的用于PDA的数据输入方法,其特征在于,步骤S42包括以下步骤:
步骤S421:对历史语音数据进行音频频谱图转换,生成历史语音频谱图;
步骤S422:利用语音拟合算法对历史语音频谱图进行频谱拟合计算处理,生成拟合频谱段;
步骤S423:根据拟合频谱段进行共振频率分析,生成音色数据。
9.根据权利要求8所述的用于PDA的数据输入方法,其特征在于,步骤S422中的语音拟合算法如下所示:
式中,P表示为拟合频谱段的拟合值,表示为待拟合语音频谱的分量数量,An表示为待拟合语音频谱的第n个分量的振幅,e表示为自然对数的底数,j表示为虚数单位,ω表示为语音信号的角频率,t表示为语音信号涉及的时间长度,αn表示为待拟合语音频谱的第n个分量的衰减速率,/>表示为待拟合语音频谱的额外分量数量,Bm表示为待拟合语音频谱的第m个额外分量的振幅,βm表示为待拟合语音频谱的第m个额外分量的衰减速率,γ表示为待拟合语音频谱的整体衰减速率,τ表示为拟合频谱段的拟合值的异常调整值。
10.一种用于PDA的数据输入系统,其特征在于,用于执行如权利要求1所述的用于PDA的数据输入方法,该用于PDA的数据输入系统包括:
外部噪音采集模块,用于对PDA设备进行外部环境音频数据采集,生成外部音频数据;对外部音频数据进行噪声强度计算,从而生成噪声强度数据;
输入法设定模块,用于对噪声强度数据进行强度判定,当噪声强度数据过大时,将PDA设备的数据输入方式自动切换成键盘输入方式,并执行S3;当噪声强度数据过小时,将PDA设备输入方式自动切换成麦克风输入方式,并执行S4;
键盘输出模块,用于获取用户的历史键盘输入数据;利用神经网络算法与历史键盘输入数据进行用户输入行为的数学模型构建,生成优化输入行为模型;根据键盘输入方式进行键盘输入数据实时采集,生成实时输入数据,将实时输入数据传输至优化输入行为模型进行输出数据优化预测,生成优化输出数据,将优化输出数据传输至PDA设备进行反馈;
语音输出模块,用于获取用户的历史语音数据;对历史语音数据进行用户音色数据提取,生成音色数据;根据麦克风输入方式进行音频输入数据实时采集处理,生成音频输入数据;根据音色数据对音频输入数据进行用户音色加权处理,生成加权音频数据;根据加权音频数据的权重进行最优权重的音频数据提取,生成目标音频数据,并根据自然语言技术对目标音频数据进行语意优化,生成音频输出数据,将音频输出数据传输至PDA设备进行反馈。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311176448.4A CN117251095B (zh) | 2023-09-12 | 用于pda的数据输入方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311176448.4A CN117251095B (zh) | 2023-09-12 | 用于pda的数据输入方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117251095A true CN117251095A (zh) | 2023-12-19 |
CN117251095B CN117251095B (zh) | 2024-05-17 |
Family
ID=
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107799125A (zh) * | 2017-11-09 | 2018-03-13 | 维沃移动通信有限公司 | 一种语音识别方法、移动终端及计算机可读存储介质 |
CN108182000A (zh) * | 2017-12-25 | 2018-06-19 | 科大讯飞股份有限公司 | 键盘输入检测方法及装置、存储介质、电子设备 |
CN110308800A (zh) * | 2019-06-24 | 2019-10-08 | 北京百度网讯科技有限公司 | 输入方式的切换方法、装置、系统及存储介质 |
CN110648657A (zh) * | 2018-06-27 | 2020-01-03 | 北京搜狗科技发展有限公司 | 一种语言模型训练方法、构建方法和装置 |
CN112799504A (zh) * | 2019-11-13 | 2021-05-14 | 精工爱普生株式会社 | 头部佩戴型显示装置、输入方式的切换方法及记录介质 |
CN112948707A (zh) * | 2021-02-02 | 2021-06-11 | 辽宁工程技术大学 | 一种强化学习优化lfm的协同过滤推荐算法 |
CN115884032A (zh) * | 2023-02-20 | 2023-03-31 | 深圳市九音科技有限公司 | 一种后馈式耳机的智慧通话降噪方法及系统 |
CN116189681A (zh) * | 2023-05-04 | 2023-05-30 | 北京水晶石数字科技股份有限公司 | 一种智能语音交互系统及方法 |
CN116451194A (zh) * | 2023-04-12 | 2023-07-18 | 万汇互联(深圳)科技有限公司 | 一种基于客户端行为特征的人机校验模型及方法 |
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107799125A (zh) * | 2017-11-09 | 2018-03-13 | 维沃移动通信有限公司 | 一种语音识别方法、移动终端及计算机可读存储介质 |
CN108182000A (zh) * | 2017-12-25 | 2018-06-19 | 科大讯飞股份有限公司 | 键盘输入检测方法及装置、存储介质、电子设备 |
CN110648657A (zh) * | 2018-06-27 | 2020-01-03 | 北京搜狗科技发展有限公司 | 一种语言模型训练方法、构建方法和装置 |
CN110308800A (zh) * | 2019-06-24 | 2019-10-08 | 北京百度网讯科技有限公司 | 输入方式的切换方法、装置、系统及存储介质 |
CN112799504A (zh) * | 2019-11-13 | 2021-05-14 | 精工爱普生株式会社 | 头部佩戴型显示装置、输入方式的切换方法及记录介质 |
CN112948707A (zh) * | 2021-02-02 | 2021-06-11 | 辽宁工程技术大学 | 一种强化学习优化lfm的协同过滤推荐算法 |
CN115884032A (zh) * | 2023-02-20 | 2023-03-31 | 深圳市九音科技有限公司 | 一种后馈式耳机的智慧通话降噪方法及系统 |
CN116451194A (zh) * | 2023-04-12 | 2023-07-18 | 万汇互联(深圳)科技有限公司 | 一种基于客户端行为特征的人机校验模型及方法 |
CN116189681A (zh) * | 2023-05-04 | 2023-05-30 | 北京水晶石数字科技股份有限公司 | 一种智能语音交互系统及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101610151B1 (ko) | 개인음향모델을 이용한 음성 인식장치 및 방법 | |
KR101137181B1 (ko) | 이동 장치의 다감각 음성 개선을 위한 방법 및 장치 | |
EP2122610B1 (en) | Customizable method and system for emotional recognition | |
KR101099339B1 (ko) | 복수-감지기형 음성 향상 방법 및 컴퓨터-판독가능 매체 | |
KR100745976B1 (ko) | 음향 모델을 이용한 음성과 비음성의 구분 방법 및 장치 | |
US20220230651A1 (en) | Voice signal dereverberation processing method and apparatus, computer device and storage medium | |
JP6027087B2 (ja) | スペクトル挙動の変換を実行する音響信号処理システム及び方法 | |
CN1750124B (zh) | 带限音频信号的带宽扩展 | |
JP2020525817A (ja) | 声紋認識方法、装置、端末機器および記憶媒体 | |
EP1995723B1 (en) | Neuroevolution training system | |
CN107799126A (zh) | 基于有监督机器学习的语音端点检测方法及装置 | |
JPWO2007080764A1 (ja) | 対象音分析装置、対象音分析方法および対象音分析プログラム | |
US11842721B2 (en) | Systems and methods for generating synthesized speech responses to voice inputs by training a neural network model based on the voice input prosodic metrics and training voice inputs | |
JP2002140087A (ja) | 音声処理システム | |
RU2597487C2 (ru) | Устройство обработки, способ обработки, программа, машиночитаемый носитель записи информации и система обработки | |
CN110728993A (zh) | 一种变声识别方法及电子设备 | |
CN117251095B (zh) | 用于pda的数据输入方法及系统 | |
CN117294985A (zh) | 一种tws蓝牙耳机控制方法 | |
CN117251095A (zh) | 用于pda的数据输入方法及系统 | |
AU2021101586A4 (en) | A System and a Method for Non-Intrusive Speech Quality and Intelligibility Evaluation Measures using FLANN Model | |
JP6589040B1 (ja) | 音声分析装置、音声分析方法、音声分析プログラム及び音声分析システム | |
WO2020230184A1 (ja) | 信号切り替え装置、信号切り替え方法および記録媒体 | |
US20240005908A1 (en) | Acoustic environment profile estimation | |
CN117809660A (zh) | 一种终端设备和基于声纹特征的音频处理方法 | |
CN117854489A (zh) | 一种语音分类方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |